\documentclass[lang=cn,11pt]{elegantbook}

\title{\kaishu 凸分析基础与一阶优化算法}

\author{张慧~副研究员}
\institute{理学院~数学系}
\date{2022年秋}

\extrainfo{宇宙的结构是最完善的而且是最明智的上帝的创造,\\因此,如果在宇宙里没有某种极大的或极小的法则,那就根本不会发生任何事情.—— 欧拉}

\setcounter{tocdepth}{3}

\logo{学校官方校徽01.png}
\cover{th.jpg}

% 本文档命令
\usepackage{array}
\newcommand{\ccr}[1]{\makecell{{\color{#1}\rule{1cm}{1cm}}}}
\usepackage{fancyhdr}
\pagestyle{fancy}
\fancyhead[C]{内部资料\ 请勿外传}
% 修改标题页的橙色带
\definecolor{customcolor}{RGB}{0,121,158}
\colorlet{coverlinecolor}{customcolor}

\begin{document}

\maketitle
\frontmatter

\tableofcontents

\mainmatter

\setcounter{chapter}{-1}


\chapter{基础知识}\label{chap:0}
\section{欧式空间}\label{sec0:1}
本书的内容将限制在有限维的实向量空间中讨论,该向量空间定义了内积 $\langle \cdot,\cdot\rangle$ 及其诱导的范数 $\|\cdot\|=\sqrt{\langle \cdot,\cdot\rangle}$,通常被称为欧氏空间,代表性的例子为 $\mathbb{R}^{n}$——$n$ 维欧式空间 $\mathbb{R}^{n}=\{x_1,x_2,\cdots,x_n:x\in\mathbb{R}\}$.
$$
    \left(
    \begin{array}{l}
            x_1    \\
            x_2    \\
            \vdots \\
            x_n
        \end{array}
    \right)
    +
    \left(
    \begin{array}{l}
            y_1    \\
            y_2    \\
            \vdots \\
            y_n
        \end{array}
    \right)
    =
    \left(
    \begin{array}{l}
            x_1+y_1 \\
            x_2+y_2 \\
            \vdots  \\
            x_n+y_n
        \end{array}
    \right)
$$
与
$$
    \lambda\left(
    \begin{array}{l}
            x_1    \\
            x_2    \\
            \vdots \\
            x_n
        \end{array}
    \right)
    =
    \left(
    \begin{array}{l}
            \lambda x_1 \\
            \lambda x_2 \\
            \vdots      \\
            \lambda x_n
        \end{array}
    \right),
$$
其中 $\lambda\in\mathbb{R}$ ,内积 $\langle \cdot,\cdot\rangle$ 定义为
\begin{equation}
    \label{eq0:1}
    \langle x,y\rangle=\sum_{i=1}^n x_i y_i,
\end{equation}
通常也用 $x^T y$ 表示,其中 “$T$” 表示向量的转置,相应的范数为 $\|x\|=\sqrt{\langle x,x\rangle}$,称为欧式范数,关于内积与范数成立下述重要的不等式,通常被称为Cauchy-Schwarz不等式
\begin{equation}
    |\langle y,x\rangle|\leq \|y\|\cdot \|x\|,\forall x,y\in\mathbb{R}^n.\nonumber
\end{equation}
当且仅当 $x$ 与 $y$ 线性相关,也即存在 $\lambda\in\mathbb{R}$ 使得 $x=\lambda y$ 时等式成立.\\
除(\ref{eq0:1})式定义的内积及其诱导的欧式范数,还存在其它的内积和范数,如 $\|x\|_1=\sum_{i=1}^n |x_i|$与$\|x\|_{\infty}=\max_{i}\{|x_i|\}$ 比较常见.

\section{集合与函数}\label{sec0:2}
欧式空间 $\mathbb{R}^n$ 中满足特定性质 $P$ 的点/向量构成集合
\begin{equation}
    \{x\in\mathbb{R}^n:x\text{满足性质}P\},\nonumber
\end{equation}
称为 $\mathbb{R}^n$ 的子集, $\mathbb{R}^n$ 的子集除通常的并、交、余、补运算外,我们还会涉及集合的Minkowski求和与数乘运算,分别定义如下:
\begin{equation*}
    \begin{aligned}
         & A+B:=\{x=a+b:a\in A,b\in B\},                           \\
         & \lambda A:=\{\lambda a:a\in A,\lambda \in \mathbb{R}\},
    \end{aligned}
\end{equation*}
其中“:=”表示“:”左端的集合由右端定义或“:”左端的元素由右端的性质确定.

基于欧式范数,可定义单点集$\{x\}$的邻域,
\begin{equation}
    O(x,r):=\{y\in\mathbb{R}^n:\|y-x\|< r\},\nonumber
\end{equation}
该邻域也称为以$x$为球心半径为$r$的开球.对给定的集合$A$及$A$中的点$a$,若$\exists r>0$,使得$O(a,r)\subset A$,则称$a$为$A$的内点,内点的全体构成$A$的内部,记为int$A$.当$A=\text{int} A$(也即$A$的每点均为内点时),称$A$为开集,开集$A$的余集$\mathbb{R}^n\backslash A$为闭集.换言之,若一个集合的余集为开集,则该集为闭集.闭集的等价描述为:若集合$A$包含其任意收敛子列的极限,则称$A$为闭集.一个集合$A$的闭包定义为包含$A$的最小闭集,记为$d(A)$,从而
\begin{equation}
    d(A)=\bigcap \{Y:A\subset Y\text{且}Y\text{为闭集}\}.\nonumber
\end{equation}
函数$f:\mathbb{R}^n\rightarrow\mathbb{R}$可视为$\mathbb{R}^n\times\mathbb{R}$中的集合$G_f$满足性质:
\begin{enumerate}[(i)]
    \item $\forall x\in\mathbb{R}^n,\exists y\in\mathbb{R},s.t.(x,y)\in G_f$;
    \item 若$(x,y_1)\in G_f, (x,y_2)\in G_f$,则$y_1=y_2$.
\end{enumerate}
换言之, $f$与其图像$G_f$一一对应.

集合的上、下确界将用于定义最优化问题,给定有界集合$A\subset\mathbb{R}$且$A\neq \emptyset$,其上确界被定义为$A$的最小上界记为$\sup A$;而其下确界为$A$的最大下界,记为$\inf A$,易知
\begin{equation}
    \label{eq0:2}
    \inf A\leq x\leq \sup A,\forall x\in A,
\end{equation}
且若有$\mu,v\in\mathbb{R}$,满足$v\leq x,\mu\geq x,\forall x\in A$,则必有
\begin{equation}
    \mu\geq \sup A,v\leq \inf A.\nonumber
\end{equation}
值得注意的是, $\inf A$和$\sup A$不一定属于$A$,比如$A=(-1,1)$,则$\inf A=-1,\sup A=1$均不属于$A$.为了突显该性质,当$\sup A\in A$时,我们用$\max A$来表示$\sup A$;而当$\inf A\in A$时,用$\min A$表示$\inf A$.上、下确界有浅显的对偶关系:
\begin{equation}
    \label{eq0:3}
    \sup A=-\inf (-A).
\end{equation}
当$A\subset \mathbb{R}$非空无上界时,我们约定$\sup A=+\infty$,类似地,当$A\subset\mathbb{R}$非空无下界时$\inf A=-\infty$,并约定$\inf \emptyset=+\infty,\sup\emptyset=-\infty$,此时,关系式(\ref{eq0:3})仍成立.

\section{最优化问题}\label{sec0:3}
现基于上、下确界的概念来定义最优化问题及相关术语.设
$f:\mathbb{R}^n\rightarrow\mathbb{R},X\subset\mathbb{R}^n$,令
\begin{equation}
    A=\{f(x):x\in X\}.\nonumber
\end{equation}
一般的最优化问题可简化为/抽象为:
\begin{equation}
    \text{计算}\inf A:=\bar{f},\nonumber
\end{equation}
其中, $f$称为目标函数值而下确界$\bar{f}$称为最优值.若$\bar{f}\in A$,则必存在$\bar{x}\in X$,使得$f(\bar{x})=\bar{f}$,这样的$\bar{x}$称为最优解,此时下确界$\inf A$习惯于写成:
\begin{equation}
    \label{eq0:4}
    \min\{f(x):x\in X\},
\end{equation}
以强调或隐含地假设最优解的存在性;或写成:
\begin{equation}
    \begin{aligned}
         & \min f(x)\nonumber     \\
         & s.t. ~x\in X,\nonumber
    \end{aligned}
\end{equation}
以分离目标函数与约束集.
全体最优解构成最优化问题(\ref{eq0:4})的解集,记为
\begin{equation}
    \mathop{\text{Argmin}} \{f(x):x\in\mathbb{Z}\},\nonumber
\end{equation}
若解集为单点集,也即最优解唯一,则我们用
\begin{equation}
    \arg \min \{f(x):x\in\mathbb{Z}\}\nonumber
\end{equation}
以示区分.

为计算最优值$\bar{f}$,通常需要设计算法来生成一个极小化序列$\{x_k\}\subset\mathbb{Z}$使得$f(x_k)\rightarrow\bar{f},k\rightarrow\infty$,但序列$\{x_k\}$未必收敛,更不用说收敛到最优解$\bar{x}$,例如
\begin{equation}
    \label{eq0:5}
    \min\{f(x):x\in\mathbb{R}\},
\end{equation}
其中,
$$
    f(x)=
    \left\{
    \begin{aligned}
        0,x=0, \\
        \frac{1}{|x|},x\neq 0,
    \end{aligned}
    \right.
$$
则$\bar{f}=0,\bar{x}=0$且$\{x_k=k\}$为极小化序列,显然$x_k\nrightarrow \bar{x}$.

由上、下确界的定义,最优值$\bar{f}$恒存在(允许取$\pm \infty$),但最优解$\bar{x}$需要特定的条件.事实上,若将(\ref{eq0:5})中的目标函数$f$修改为
$$
    f(x)=
    \left\{
    \begin{aligned}
        1,x=0, \\
        \frac{1}{|x|},x\neq 0,
    \end{aligned}
    \right.
$$
则$\bar{x}$不存在!最基本的保证最优解存在性的结果Weierstrass定理:若$\mathbb{Z}\subset\mathbb{R}^n$为有界闭集且$f:\mathbb{R}^n\rightarrow\mathbb{R}$为连续函数,则最优化问题(\ref{eq0:4})存在最优解$\bar{x}$.该结果中的函数连续性可弱化为下半连续性,也即对任意收敛序列$\{x_k\}$,当$x_k\rightarrow x^*$时,必有
\begin{equation}
    f(x^*)\leq \lim\inf_{k} f(x_k).\nonumber
\end{equation}
事实上,设$\{x_k\}\subset\mathbb{Z}$为极小化序列,由于$\mathbb{Z}$为有界闭集,则存在收敛子列$\{x_{k_i}\}$,其极限设为$x^*$,因此,
\begin{equation}
    f(x^*)\leq \lim_{i}\inf f(x_{k_i})=\lim_i f(x_{k_i})=\bar{f}.\nonumber
\end{equation}
可见, $x^*\subset\mathop{\text{Argmin}}\{f(x),x\in\mathbb{Z}\}$.
此外, $\mathbb{Z}$的有界闭性是必要的.例如极小化连续函数$f(x)=e^x$无最优解!

\section{可微性}\label{sec0:4}
设$f:\mathbb{R}^n\rightarrow \mathbb{R}$在开集$U \subset\mathbb{R}^n$上连续可微, $x\in U$,其$f$在$x$处梯度$\nabla f(x)$定义为
$$
    \nabla f(x)=
    \left(
    \begin{array}{l}
            \frac{\partial f(x)}{\partial x_1} \\
            \frac{\partial f(x)}{\partial x_2} \\
            \vdots                             \\
            \frac{\partial f(x)}{\partial x_n}
        \end{array}
    \right)
    \in\mathbb{R}^n.
$$
其中, $\frac{\partial f(x)}{\partial x_i}=\lim_{t\rightarrow 0^{+}}\frac{f(x+t e_i)-f(x)}{t}$为第$i$个偏导数, $e_i\in\mathbb{R}^n$为第$i$个元素为1,其它元素均为0的向量,若$f$在$U$在二阶连续可微,则$f$在$x$处的海森矩阵$\nabla^2 f(x)$定义为
$$
    \nabla^2 f(x)=\left(
    \begin{array}{llll}
            \frac{\partial^2 f(x)}{\partial x_1^2}            &
            \frac{\partial^2 f(x)}{\partial x_1 \partial x_2} &
            \cdots                                            &
            \frac{\partial^2 f(x)}{\partial x_1 \partial x_n}                      \\
            \vdots                                            & \vdots &  & \vdots \\
            \frac{\partial^2 f(x)}{\partial x_n\partial x_1}  &
            \frac{\partial^2 f(x)}{\partial x_n\partial x_2}  &
            \cdots                                            &
            \frac{\partial^2 f(x)}{\partial x_n^2}
        \end{array}
    \right)
    \in\mathbb{R}^{n\times n}.
$$
基于梯度和海森矩阵,我们可对连续可微函数进行线性与二阶近似.

\begin{theorem}{线性近似}\label{thm0:1}
    设$f:\mathbb{R}^n\rightarrow \mathbb{R}$在开集$U\subset\mathbb{R}^n$上连续可微,且$x\in U$,则有
    \begin{equation}
        f(y)=f(x)+\langle \nabla f(x),y-x\rangle+o(\|y-x\|),\nonumber
    \end{equation}
    其中"o"表示高阶无穷小,也即$\lim_{\tau\rightarrow0}\frac{o(\tau)}{\tau}=0$.
\end{theorem}

\begin{theorem}{二阶近似}\label{thm0:2}
    设$f:\mathbb{R}^n\rightarrow \mathbb{R}$在开集$U\subset\mathbb{R}^n$上二阶连续可微,且$x\in U$,则有
    \begin{equation}
        f(y)=f(x)+\langle \nabla f(x),y-x\rangle+\frac{1}{2}(y-x)^T\nabla^2 f(x) (y-x)+o(\|y-x\|^2).\nonumber
    \end{equation}
\end{theorem}

\section{线性代数}\label{sec0:5}
给定矩阵$A\in\mathbb{R}^{m\times n}$,则$A$的列向量表示为:
\begin{equation}
    A=[A_1,A_2,\cdots,A_n],\nonumber
\end{equation}
其中$A_i\in\mathbb{R}^m$为$A$的第$i$列向量,向量集$\{A_1,A_2,\cdots,A_n\}$的有限线性组合的全体构成$\mathbb{R}^m$的子空间,称为$A$的值空间, i.e.
\begin{equation}
    \text{Im} A:=\{Ax:x\in\mathbb{R}^n\}.\nonumber
\end{equation}
值空间的维数称为矩阵$A$的秩,记为rank$A$,满足
\begin{equation}
    \text{rank} A\leq \min \{m,n\},\nonumber
\end{equation}
当上式取等号时,称$A$为满秩矩阵.$A$的零空间定义为
\begin{equation}
    \text{Null} A=\{x:Ax=0\}.\nonumber
\end{equation}
设$V$为$\mathbb{R}^n$的子空间,则其正交补定义为
\begin{equation}
    V^{\perp}:=\{x\in\mathbb{R}^n:\langle x,z\rangle=0,z\in V\},\nonumber
\end{equation}
可以验证$A$的零空间为$A^T$的值空间的正交补:
\begin{equation}
    \text{Null} A=(\text{Im} A^T)^{\perp}.\nonumber
\end{equation}

矩阵分解是分析矩阵的核心工具,设$A\in\mathbb{R}^{n\times n}$且$A=A^T$(也即$A$为对称矩阵),则存在矩阵$Q\in\mathbb{R}^{n\times n}$满足$Q^TQ=I$,以及对角阵$\varLambda = \text{diag}(\lambda_1,\cdots,\lambda_n)$使得
\begin{equation}
    A=Q\varLambda  Q^T,\nonumber
\end{equation}
其中$\lambda_i$称为$A$的特征值,当$\lambda_i>0,i=1,\cdots,n$时,称$A$为正定阵,用符号$A>0$表示;而当$\{\lambda_i\}$非负时,称$A$为半正定阵,用$A\geq 0$表示.若$-A$正定则称$A$为负定阵,用$A<0$表示.若用$\lambda_{\min}(A)$与$\lambda_{\max}(A)$分别表示$A$的最小、最大特征值,则它们可用下述最优化问题描述
\begin{equation*}
    \begin{aligned}
        \lambda_{\min}(A)=\inf \{x^T Ax:\|x\|=1\}, \\
        \lambda_{\max}(A)=\sup \{x^T Ax:\|x\|=1\}.
    \end{aligned}
\end{equation*}
综合上述定义,可推出以下关系:
\begin{equation}
    A\geq 0\Leftrightarrow\lambda_{\min}(A)\geq 0
    \Leftrightarrow x^T Ax\geq 0,\forall x\in\mathbb{R}^n.\nonumber
\end{equation}

对于一般矩阵$A\in\mathbb{R}^{m\times n}$,设$\text{rank} A=r$,则有如下的分解
\begin{equation}
    A=V\Sigma^{-1} U^T,\nonumber
\end{equation}
容易验证$A^{\dagger}$满足Penrose给出的关于$A$的广义逆$X$的定义:
\begin{equation*}
    \begin{aligned}
        AXA=A,\quad XAX=X, \\
        (AX)^T=AX,\quad (XA)^T=XA.
    \end{aligned}
\end{equation*}

\markboth{Introduction}{Introduction}

\begin{problemset}
    \item 证明Cauchy-Schwarz不等式:
    \begin{equation*}
        |\langle y,x\rangle|\leq \| y \| \cdot \| x\|,\forall x,y\in \mathbb{R}^n.
    \end{equation*}
    (hint:考虑$\| x-\lambda y\|^2\geq 0$关于$\lambda$的二次函数/方程, $\Delta \leq 0$判别法则)\\
    并据此证明1-范数$\| \cdot \|_1$与欧式范数的等价性:
    \begin{equation*}
        \| x\|_2\leq \| x\|_1\leq \sqrt{n}\cdot\| x\|_2,\forall x\in \mathbb{R}^n.
    \end{equation*}
    \item 证明集合的内部为开集.
    \item 设$A\subset \mathbb{R}$非空.证明存在序列$\{x_k\}\subset A$,使得
    \begin{equation*}
        \lim_{k\rightarrow \infty}x_k=\sup A.
    \end{equation*}
    \item 证明下述关系式:
    \begin{equation*}
        \inf \{g(x,y):x\in X,y\in Y\}=\inf \{\inf\{g(x,y):y\in Y\}:x\in X\}.
    \end{equation*}
    \item 设$A\in \mathbb{R}^{n\times n}$为对称矩阵, $b\in \mathbb{R}^n$.令
    \begin{equation*}
        f(x)=x^TAx-2b^Tx.
    \end{equation*}
    证明下述结论等价:
    \begin{itemize}
        \item[(i)] $\inf \{f(x):x\in \mathbb{R}^n\}>-\infty$;
        \item[(ii)] $A\succeq 0$且$b\in \text{Im}A$;
        \item[(iii)] $\arg \min\{f(x):x\in\mathbb{R}^n\}\neq \emptyset$.
    \end{itemize}
    \item 设$A\in \mathbb{R}^{n\times n}$为对称矩阵, $b\in\mathbb{R}^n,c\in\mathbb{R}$.\\
    证明下述结论等价:
    \begin{itemize}
        \item[(i)] $f(x)=x^TAx+2b^Tx+c\geq 0,\forall x\in \mathbb{R}^n$;
        \item[(ii)] $\left(\begin{array}{cccc}
                    A   & b \\
                    b^T & c \\
                \end{array}\right) \succeq 0$.
    \end{itemize}
\end{problemset}

\chapter{一维凸函数}\label{chap:1}
\section{定义与例子}\label{sec1:1}

\begin{definition}\label{def1:1}
    设 $ f $为定义在区间$ I $上的实值函数.若对任意点对$ x,y\in I $以及任意参数$\alpha \in (0,1)$,均有如下不等式成立:
    \begin{equation}\label{eq1:1}
        f(\alpha x+(1-\alpha)y) \leq \alpha f(x)+(1-\alpha)f(y),
    \end{equation}
    则称$f$为$I$上的凸函数.
\end{definition}


\begin{lemma}{斜率不等式}\label{lem1:1}
    定义在区间$I$上的实值函数$f$为凸函数当且仅当如下斜率不等式成立:
    \begin{equation}\label{eq1:2}
        \frac{f(z)-f(x)}{z-x} \leq \frac{f(y)-f(x)}{y-x} \leq \frac{f(y)-f(z)}{y-z}
    \end{equation}
    其中$z\in (x,y) \subset I$.
\end{lemma}

\begin{proof}
    由\cref{def1:1}知, $f$的凸性条件(\ref{eq1:1})可等价于
    \begin{equation}\label{eq1:3}
        f(z) \leq \frac{y-z}{y-x} f(x)+\frac{z-x}{y-x} f(y),z\in (x,y) \subset I
    \end{equation}
    不等式(\ref{eq1:3})两边同减$f(x)$可得(\ref{eq1:2})的左边不等式,而不等式(\ref{eq1:3})两边同减$f(y)$可得(\ref{eq1:2})的右边不等式.
    反之, (\ref{eq1:2})式中的不等式(左侧或右侧)均可推出(\ref{eq1:3})式.
\end{proof}

\begin{figure}[!htb]\label{fg1:1}
    \centering
    \includegraphics[width=0.9\textwidth]{image/fg1.png}
\end{figure}

固定$x,y,z$其中一个变量,比如固定$x$,从(\ref{eq1:2})式的左侧不等式可知
$\frac{f(z)-f(x)}{z-x} :=s_x(z) \leq s_x(y)$.\\
也即定义的斜率函数$s_x(\cdot)$对大于$x$的变量$y,z$具有单调性.同理,通过固定另外两个变量之一,可以消除单调性对变量的限制,从而得到如下\cref{cor1:1}.

\begin{corollary}\label{cor1:1}
    函数$f:I\rightarrow \mathbb{R}$为凸当且仅当对任意$x_0\in I$,斜率函数$s_{x_0}(x)$在$I\backslash \{x_0\}$为单调递增函数.
\end{corollary}

\begin{theorem}{凸函数的导数刻画}\label{thm1:1}
    设$f$为开区间$I$上的实值函数,则$f$为$I$的凸函数当且仅当以下条件之一成立:\\
    (i)在$I$上$f'$单调递增,也即当$x\leq y$且$x,y\in I$时, $f'(x)\leq f'(y)$;\\
    (ii)当$x,y\in I$时, $f(y)\geq f(x)+f'(x)(y-x)$;\\
    (iii)若$f$二阶可微, $f''(x)\geq 0,\forall x\in I$.

\end{theorem}

\begin{proof}
    由微积分理论可知(i)和(iii)等价,下证(i)$\iff$(ii)$\iff$凸性.\\
    设$f$凸,则由\cref{cor1:1}知
    \begin{equation*}
        f'(x)=\lim_{z\rightarrow x}\frac{f(z)-f(x)}{z-x}=\lim_{z\rightarrow x}s_x(z)\leq s_x(y)=\frac{f(y)-f(x)}{y-x}\\=\frac{f(x)-f(y)}{x-y}=s_y(x)\leq f'(y).
    \end{equation*}
    于是,条件(i)成立.现由条件(i)推条件(ii).为此,令$g_y(x):=f(x)-f(y)-f'(y)(x-y)$.则
    \begin{equation*}
        g'_y(x)=f'(x)-f'(y).
    \end{equation*}
    据条件(i)可知:\\
    当$x\in (y,+\infty) \cap I$时, $g'_y(x)\geq 0$;\\
    当$x\in (-\infty,y) \cap I$时, $g'_y(x)\leq 0$.\\
    从而$g_y(x)$在$y$点处达到整个区间$I$上的最小值.\\
    故$g_y(x)\geq g_y(y)=0$也即(ii)成立.\\
    最后,证明条件(ii)蕴含$f$的凸性.记
    \begin{equation*}
        z=\alpha x+(1-\alpha)y
    \end{equation*}
    则由(ii)可知,
    \begin{equation}\label{eq1:4}
        f(x)\geq f(z)+f'(z)(x-z),
    \end{equation}
    \begin{equation}\label{eq1:5}
        f(y)\geq f(z)+f'(z)(y-z).
    \end{equation}
    (\ref{eq1:4})$\times \alpha$+(\ref{eq1:5})$\times (1-\alpha)$可得(\ref{eq1:1})式.即证!
\end{proof}

\begin{example}{初等凸函数的例子}\label{exa1:1}
    下列函数均为凸函数:
    \begin{itemize}
        \item $f(x)=ax+b,a,b\in \mathbb{R}$;
        \item 定义在$\mathbb{R}$上的$f(x)=e^{ax},a\in \mathbb{R}$;
        \item 定义在$(0,\infty)$上的$f(x)=x^a,a\geq 1$;
        \item 定义在$(0,\infty)$上的$f(x)=-x^a,0\leq a \leq 1$;
        \item 定义在$(0,\infty)$上的$f(x)=x^{-a},a>0$;
        \item 定义在$(0,\infty)$上的$f(x)=-\log x ,x\log x$以及$xe^{\frac{1}{x}}$;
        \item 定义在$(-\infty,\infty)$上的$f(x)=ax^2+bx+c,a\geq 0$;
        \item 定义在$\mathbb{R}$上的$f(x)=|x|$.
    \end{itemize}
\end{example}

\section{基本性质}\label{sec1:2}

\begin{property}\label{prop1:1}
    设$f\in $conv$I$, $x_0\in $int $I$.则存在有限的左右导数:
    \begin{equation*}
        D_-f(x_0)=\lim_{x\rightarrow x_0^-}\frac{f(x)-f(x_0)}{x-x_0}=\lim_{x\rightarrow x_0^-}s_{x_0}(x),
    \end{equation*}
    \begin{equation*}
        D_+f(x_0)=\lim_{x\rightarrow x_0^+}\frac{f(x)-f(x_0)}{x-x_0}=\lim_{x\rightarrow x_0^+}s_{x_0}(x).
    \end{equation*}
    且
    \begin{equation*}
        D_-f(x_0)\leq D_+f(x_0)
    \end{equation*}

\end{property}

\begin{proof}
    由$x_0\in $int $I$可知$\exists a\neq b$, s.t. $x_0\in [a,b]\subset $int $I$.\\
    由$s_{x_0}(x)$的单调性可知
    \begin{equation*}
        s_{x_0}(a)\leq s_{x_0}(x)\leq s_{x_0}(b).
    \end{equation*}
    于是当$x\rightarrow x_0^-$时$s_{x_0}(x)$单调递增且有$s_{x_0}(b)$作为上界.从而极限$\lim\limits_{x\rightarrow x_0^-}s_{x_0}(x)$存在.同理可知$\lim\limits_{x\rightarrow x_0^+}s_{x_0}(x)$存在.\\
    设$\varepsilon >0$并令$\varepsilon \rightarrow 0$.则
    \begin{equation*}
        D_-f(x_0)=\lim_{\varepsilon \rightarrow 0}s_{x_0}(x_0-\varepsilon)\leq \lim_{\varepsilon \rightarrow 0}s_{x_0}(x_0+\varepsilon)= D_+f(x_0).
    \end{equation*}
    从而结论获证.
\end{proof}

\begin{property}{凸函数为局部Lipschitz连续的}\label{prop1:2}
    设$f$为区间$I$上的凸函数.则$f$在$I$上的任意内点处连续且若$x_0\in $int$I$,则存在$\varepsilon >0$和$L>0$使得$O(x_0,\varepsilon)\subset$int $I$且当$x\in O(x_0,\varepsilon)$时,
    \begin{equation*}
        |f(x)-f(x_0)|\leq L\cdot |x-x_0|.
    \end{equation*}

\end{property}

\begin{proof}
    取$x_0\in \text{int} I$.据\cref{cor1:1}知$s_{x_0}(x)$为单调递增函数,从而
    \begin{equation*}
        \lim_{x\rightarrow x_0^-}\frac{f(x)-f(x_0)}{x-x_0},\lim_{x\rightarrow x_0^+}\frac{f(x)-f(x_0)}{x-x_0}
    \end{equation*}
    均存在.分别记为$\ell_1,\ell_2$.进而
    \begin{equation*}
        \lim_{x\rightarrow x_0^-}(f(x)-f(x_0))=\lim_{x\rightarrow x_0^-}\frac{f(x)-f(x_0)}{x-x_0}\cdot(x-x_0)=\ell_1\cdot 0=0.
    \end{equation*}
    也即$\lim_{x\rightarrow x_0^-}f(x)=f(x_0)$.同理$\lim_{x\rightarrow x_0^+}f(x)=f(x_0)$.
    \\因此
    $$\lim_{x\rightarrow x_0}f(x)=f(x_0).$$
    取$\varepsilon_0 >0,\exists \delta_1 >0$,当$|x_0-x|<\delta_1$时,
    \begin{equation*}
        \frac{f(x)-f(x_0)}{x-x_0}\geq \ell_1-\varepsilon_0.
    \end{equation*}
    $\exists \delta_2 >0$,当$|x-x_0|<\delta_2$时,
    \begin{equation*}
        \frac{f(x)-f(x_0)}{x-x_0}\leq \ell_2+\varepsilon_0.
    \end{equation*}
    令$\varepsilon = \min \{\delta_1,\delta_2\}$则当$x\in O(x_0,\varepsilon)$时.
    \begin{equation*}
        \ell_1-\varepsilon_0\leq \frac{f(x)-f(x_0)}{x-x_0}\leq \ell_2+\varepsilon_0.
    \end{equation*}
    再令$L=\max \{|\ell_2+\varepsilon_0|,|\ell_1-\varepsilon_0|\}$可知
    \begin{equation*}
        |f(x)-f(x_0)|\leq L|x-x_0|.
    \end{equation*}
\end{proof}

\begin{problemset}
    \item 证明函数$f(x)=\sqrt{|x|}$为非凸函数.
    \item 举一个区间上非连续的凸函数的例子.
    \item 试用函数$-\log x$的凸性证明Young不等式.
    \begin{equation*}
        st\leq \frac{s^p}{p}+\frac{t^q}{q},\forall s,t\geq 0.
    \end{equation*}
    其中$p,q>1$满足$\frac{1}{p}+\frac{1}{q}=1$.
    \item 设 $f:(0,+\infty) \rightarrow \mathbb{R}$.证明$g(x)=xf(\frac{1}{x})$在$(0,+\infty)$上为凸函数当且仅当$f$在$(0,+\infty)$上为凸函数.并据此说明$x\log x$与$xe^{\frac{1}{x}}$均为凸函数.
    \item (Jensen不等式)设$f$为非空区间$I$上的凸函数,参数$\{\alpha_1,\alpha_2,\cdots,\alpha_k\}$满足条件$\alpha_i \geq 0,i=1,\cdots,k$且$\sum\limits_{i=1}^k\alpha_i=1$,则有
    \begin{equation*}
        f(\sum\limits_{i=1}^k\alpha_i x_i)\leq \sum\limits_{i=1}^k\alpha_i f(x_i)
    \end{equation*}
    \item 设$g:\mathbb{R}\rightarrow\mathbb{R}$为连续函数且满足
    \begin{equation*}
        g(\frac{t+s}{2})\leq \frac{1}{2}g(t)+\frac{1}{2}g(s),\forall t,s\in \mathbb{R}.
    \end{equation*}
    证明
    \begin{equation*}
        g(\frac{5}{8}t+\frac{3}{8}s)\leq \frac{5}{8}g(t)+\frac{3}{8}g(s).
    \end{equation*}
    并进一步证明$g$为凸函数.
\end{problemset}

\chapter{凸集}\label{chap:2}

\section{凸集的概念}\label{sec2:1}
为将一维凸函数的概念推广到高维,首先应将区间的概念进行推广.此处推广的思想为:当高维的凸函数限制到(或投影到)任意的一维空间时,对应的函数为一维凸函数.因此引出如下凸集的定义.

\begin{definition}\label{def2:1}
    设$X$为$\mathbb{R}^n$中的非空子集.若对任意的$x,y\in X$以及参数$\alpha \in (0,1)$均有
    \begin{equation*}
        \alpha x+(1-\alpha)y\in X,
    \end{equation*}
    则称$X$为$\mathbb{R}^n$中的凸集.并约定空集$\emptyset$为凸集.
\end{definition}

直观地,若将集合$\{\alpha x+(1-\alpha)y:0\leq \alpha\leq 1\}:=[x,y]$理解成连接两个端点$x,y$的线段,则凸集$X$包含(任意)端点落于$X$中的任意线段.

\begin{example}\label{exa2:1}
    下述集合均为凸集.
    \begin{itemize}
        \item[<i>] 仿射直线$I=\{\tau x_1+(1-\tau)x_2:\tau \in \mathbb{R}\}$,其中$x_1,x_2\in\mathbb{R}^n,x_1\neq x_2$给定.
        \item[<ii>] (仿射)超平面$H=\{x\in \mathbb{R}^n:\langle a,x\rangle=b \}$及半空间$H^-=\{x\in \mathbb{R}^n:\langle a,x\rangle \leq b\},a\in \mathbb{R}^n \backslash \{0\},b\in \mathbb{R}$.
        \item[<iii>] 范数球$B=\{x\in \mathbb{R}^n: \| x-a\|\leq b \}$其中$a\in\mathbb{R}^n,b>0$.
        \item[<iv>] 椭球$ \tilde{B}=\{x\in \mathbb{R}^n: x^TQ x+2b^Tx+c\leq 0\},Q\in \mathbb{R}^{n\times n}$半正定, $b\in \mathbb{R}^n,c\in \mathbb{R}$.
    \end{itemize}
\end{example}

\begin{proof}
    \begin{itemize}
        \item[<i>] 设$x=\tau_1 x_1+(1-\tau_1)x_2,y=\tau_2x_1+(1-\tau_2)x_2.\forall \alpha \in (0,1)$.
            \begin{equation*}
                \begin{aligned}
                    \alpha x+(1-\alpha)y & =\alpha_1 \tau_1 x_1+\alpha(1- \tau_1) x_2+(1-\alpha)\tau_2x_1+(1-\alpha)(1-\tau_2)x_2 \\
                                         & =(\alpha\tau_1+(1-\alpha)\tau_2)x_1+[1-(\alpha\tau_1+(1-\alpha)\tau_2)]x_2             \\
                                         & =\tau_3x_1+(1-\tau_3)x_2.
                \end{aligned}
            \end{equation*}
            其中$\tau_3=\alpha\tau_1+(1-\alpha)\tau_2$,可知仿射直线为凸集.
        \item[<ii>] 任取$x,y\in H,\alpha \in(0,1)$则有
            \begin{equation*}
                \langle a,\alpha x+(1-\alpha)y \rangle=\alpha \langle a,x\rangle +(1-\alpha)\langle a,y\rangle =b.
            \end{equation*}
            可知$\alpha x+(1-\alpha)y\in H$.
        \item[<iii>] 任取$x,y\in B,\alpha \in (0,1)$则有
            \begin{equation*}
                \begin{aligned}
                    \| [\alpha x+(1-\alpha)y]-c\| & =\| \alpha(x-c)+(1-\alpha)(y-c)\|        \\
                                                  & \leq \alpha \| x-c\| +(1-\alpha)\| y-c\| \\
                                                  & \leq \alpha b+(1-\alpha)b = b.
                \end{aligned}
            \end{equation*}
            故$\alpha x+(1-\alpha)y\in B$.
        \item[<iv>] $Q$半正定可知存在矩阵$\Gamma$, s.t. $Q=\Gamma^T\Gamma$.\\
            现任取$x,y\in  \tilde{B},\alpha\in(0,1)$则有
            \begin{equation*}
                \begin{aligned}
                    \relax [\alpha x +(1-\alpha)y]^TQ[\alpha x & +(1-\alpha)y]+2b^T[\alpha x+(1-\alpha)y]+c          \\
                                                               & =\alpha(x^TQx+2b^Tx+c)+(1-\alpha)(y^TQy+2b^Ty+c)    \\
                                                               & +\alpha(1-\alpha)(xQ^Ty+y^TQx-x^TQx-y^TQy)          \\
                                                               & \leq \alpha(1-\alpha)(x^TQy+y^TQx-x^TQx-y^TQy)      \\
                                                               & =-\alpha(1-\alpha)\| \Gamma x-\Gamma y\| ^2 \leq 0.
                \end{aligned}
            \end{equation*}
            故$\alpha x+(1-\alpha)y\in \tilde{B}$.
    \end{itemize}
\end{proof}


\section{凸集的(代数)运算(保凸操作)}\label{sec2:2}

\begin{property}{交}\label{prop2:1}
    设$\{C_i\}_{i\in I}$为$\mathbb{R}^n$中的一族凸集,其中$I$为指标集(可能无限).则集合$C=\bigcap\limits_{i\in I}C_i$为凸集.
\end{property}

\begin{proof}
    设$x,y\in C,\alpha\in(0,1)$.则$x,y\in C_i,\forall i\in I$.由凸性知
    \begin{equation*}
        \alpha x+(1-\alpha)y\in C_i,\forall i\in I.
    \end{equation*}
    故$\alpha x+(1-\alpha)y\in \bigcap\limits_{i\in I}C_i=C$.
\end{proof}

\begin{example}{凸多面体}\label{exa2:2}
    $P=\{x\in \mathbb{R}^n:Ax\leq b\}$其中$A\in \mathbb{R}^{m\times n},b\in \mathbb{R}^m$为凸集.\\
    事实上,
    \begin{equation*}
        P=\bigcap\limits_{i=1}^m\{x\in \mathbb{R}^n:A_ix\leq b_i\}.
    \end{equation*}
    其中$A_i$为$A$的第$i$行.已证半空间$H_i=\{x\in \mathbb{R}^n:A_ix\leq b_i\}$为凸集.故其交集亦为凸集.
\end{example}

\begin{property}{卡式积}\label{prop2:2}
    设$C_i\subset \mathbb{R}^{n_i}$为凸集, $i=1,\cdots,k$.则卡式积$C:=C_1\times C_2\times \cdots \times C_k$为$\mathbb{R}^{n_1}\times \mathbb{R}^{n_2} \times \cdots \times  \mathbb{R}^{n_k}$中的凸集.
\end{property}

\begin{proof}
    证明过程类似\cref{prop2:1},此处从略.为证明逆命题也成立,我们引入仿射映射$A:\mathbb{R}^n\rightarrow \mathbb{R}^m$:
    \begin{equation*}
        Ax=A_0x+z_0.
    \end{equation*}
    其中$A_0\in \mathbb{R}^{m\times n},x\in \mathbb{R}^n$.一个集合$C$的仿射映射像定义为集合
    \begin{equation*}
        A(C):=\{z\in \mathbb{R}^m:z=Ax,x\in C\}.
    \end{equation*}
    而一个集合$D\subset \mathbb{R}^m$的仿射映射逆像定义为
    \begin{equation*}
        A^{-1}(D):=\{x\in \mathbb{R}^n:Ax\in D\}.
    \end{equation*}
\end{proof}

\begin{property}\label{prop2:3}
    设$A:\mathbb{R}^n \rightarrow \mathbb{R}^m$为仿射映射, $C,D$分别为$\mathbb{R}^n$和$\mathbb{R}^m$中的凸集.则$A(C)$与$A^{-1}(D)$分别为$\mathbb{R}^m$和$\mathbb{R}^n$中的凸集.
\end{property}

\begin{proof}
    任取$z_1,z_2\in A(C),\alpha \in (0,1)$.则存在$x_1,x_2\in C$使得$z_i=Ax_i,i=1,2$.\\
    于是
    \begin{equation*}
        \begin{aligned}
            \alpha z_1+(1-\alpha)z_2 & =\alpha Ax_1+(1-\alpha)Ax_2   \\
                                     & =A[\alpha x_1+(1-\alpha)x_2].
        \end{aligned}
    \end{equation*}
    由$C$为凸集可知$\alpha x_1+(1-\alpha)x_2\in C$.因而,
    \begin{equation*}
        \alpha z_1+(1-\alpha)z_2\in A(C).
    \end{equation*}
    $A^{-1}(D)$的凸性同理可证.
\end{proof}

\begin{corollary}\label{cor2:1}
    设$C_1,C_2,\cdots,C_k\subseteq \mathbb{R}^n$为凸集, $\mu_1,\cdots,\mu_k\in\mathbb{R}$.则集合$\mu_1C_1+\cdots+\mu_k C_k=\{\sum\limits^k_{i=1}\mu_i x_i:x_i\in C_i,i=1,\cdots,k\}$为凸集.特别地,闵氏求和$C_1+C_2$为凸集.
\end{corollary}

\begin{proof}
    首先,由\cref{prop2:2}知$C=C_1\times C_2\times \cdots \times C_k$为凸集.\\
    定义$A:\underbrace{\mathbb{R}^n\times \mathbb{R}^n\times \cdots \times \mathbb{R}^n}_k\rightarrow\mathbb{R}^n$为
    $$A(x_1,x_2,\cdots,x_k)=\sum\limits^n_{i=1}\mu_i x_i.$$
    则有$A(C)=\mu_1 C_1+\cdots+\mu_k C_k$.\\
    再根据\cref{prop2:3}知$A(C)$为凸集,即证.
\end{proof}

\begin{property}\label{prop2:4}
    设$C$为$\mathbb{R}^n$中的凸集.则$\text{cl}C$与$\text{int}C$均为凸集.
\end{property}

\begin{proof}
    注意到$\text{cl}C=\bigcap\limits_{\varepsilon>0}(C+\varepsilon B)$,其中$B=\{x\in \mathbb{R}^n:\| x\| \leq 1\}$为单位球.\\
    由$B,C$均为凸集及\cref{cor2:1}可知$C+\varepsilon B$为凸.从而其交集亦为凸集.
    $$\text{int}C=\{x\in \mathbb{R}^n:\exists \varepsilon>0,x+\varepsilon B\subset C\}.$$
    任取$x,y\in \text{int}C,\alpha\in(0,1).$对足够小的$\varepsilon$则有
    \begin{equation}\label{eq2:1}
        \begin{aligned}
            (1-\alpha)x+\alpha y+\varepsilon B & \subset (1-\alpha)x+\alpha(C+\varepsilon B)+\varepsilon B     \\
                                               & =(1-\alpha)[x+\varepsilon(1+\alpha)(1-\alpha)^{-1}B]+\alpha C \\
                                               & \subset (1-\alpha)C+\alpha C = C.
        \end{aligned}
    \end{equation}

    其中(\ref{eq2:1})式是由于$x\in \text{int}C$.当$\varepsilon$足够小时,
    $$x+\varepsilon(1+\alpha)(1-\alpha)^{-1}B\subset C.$$
    即证.
\end{proof}

\section{凸组合与凸包}\label{sec2:3}
在给出定义之前,先引入单纯形:
$$\Delta_k=\{\lambda\in \mathbb{R}^k:\lambda\geq 0 \text{且}\langle e,\lambda\rangle=1\}.$$
其中$e\in \mathbb{R}^k$且其每个分量为1. $\lambda\geq 0$表示$\lambda$的每个分量均非负.\par
若令$A=\{\lambda\in\mathbb{R}^k:\lambda\geq 0\},B=\{\lambda\in\mathbb{R}^k:\langle e,\lambda\rangle=1\}$.则$A$为凸多面体(\cref{exa2:2}), $B$为超平面,两者均为凸集,故$\Delta_k=A\cap B$为凸集.

\begin{definition}\label{def2:2}
    设$x_1,x_2,\cdots,x_k\in\mathbb{R}^n,\lambda\in \Delta_k$.则称
    $$\lambda_1 x_1+\lambda_2 x_2+\cdots+\lambda_k x_k$$
    为$x_1,x_2,\cdots,x_k$的凸组合.
\end{definition}

\begin{definition}\label{def2:3}
    设$X\subset \mathbb{R}^n$非空.则称$X$中的任意有限个点的凸组合构成的集合为$X$的凸包,记为$\text{conv}X$.换言之,
    $$\text{conv}X=\{\sum\limits^k_{i=1}\lambda_i x_i:x_1,\cdots,x_k\in X,\lambda\in\Delta_k,k\in \mathbb{N}\}.$$
\end{definition}
下述引理指出,凸包$\text{conv}X$是包含$X$的“最小”的凸集.

\begin{lemma}\label{lem2:1}
    设$\mathscr{A}:=\{Y\subset\mathbb{R}^n:Y\text{为凸集且}Y\supset X\}$.则$\text{conv}X=\bigcap\limits_{Y\in \mathscr{A}} Y$.
\end{lemma}

\begin{proof}
    记$Z=\bigcap\limits_{Y\in \mathscr{A}} Y$.先证$\text{conv}X\subset Z$,也即$\forall Y$凸且$Y\supset X$均有$\text{conv}X\subset Y$.为此取
    $$z=\sum\limits^k_{i=1}\lambda_i x_i\in \text{conv}X, $$
    则$\lambda\in\Delta_k,x_i\in X\subset Y,i=1,\cdots,k.$于是不妨$\lambda_k\neq 1$,
    \begin{equation*}
        \begin{aligned}
            z & =\sum\limits^{k-1}_{i=1}\lambda_i x_i+\lambda_k x_k                                    \\
              & =(1-\lambda_k)(\sum\limits^{k-1}_{i=1}\frac{\lambda_i}{1-\lambda_k}x_i)+\lambda_k x_k.
        \end{aligned}
    \end{equation*}
    若$k=2$,则由$Y$为凸集可知$z\in Y$.\\
    假设$k=m$时, $z=\sum\limits^m_{i=1}\lambda_ix_i\in Y$.往证$k=m+1$时, $z\in Y$.不妨$\lambda_{m+1}\neq 1$.于是
    \begin{equation*}
        \begin{aligned}
            z & =\sum\limits^{m+1}_{i=1}\lambda_ix_i=\sum\limits^m_{i=1}\lambda_ix_i+\lambda_{m+1}x_{m+1}         \\
              & =(1-\lambda_{m+1})(\sum\limits^m_{i=1}\frac{\lambda_i}{1-\lambda_{m+1}}x_i)+\lambda_{m+1}x_{m+1}.
        \end{aligned}
    \end{equation*}
    由$\sum\limits\limits^m_{i=1}\frac{\lambda_i}{1-\lambda_{m+1}}=1$以及假设知
    $$\sum\limits^m_{i=1}\frac{\lambda_i}{1-\lambda_{m+1}}x_i\in Y.$$
    因而$z=\sum\limits^{m+1}_{i=1}\lambda_ix_i\in Y$.\\
    反之, $Z\subset \text{conv}X$.只需证明$\text{conv}X$为凸集.\\
    取$z_1=\sum\limits^k_{i=1}\alpha_ix_i,z_2=\sum\limits^l_{j=1}\beta_jy_j\in \text{conv}X$.其中$x_i,y_i\in X$. $\sum\limits \alpha_i=\sum\limits\beta_j=1$且$\alpha_i,\beta_j\geq 0$.对任意$\alpha\in(0,1)$,我们有
    $$\alpha z_1+(1-\alpha)z_2=\sum\limits^k_{i=1}\alpha\alpha_ix_i+\sum\limits_{j=1}^l(1-\alpha)\beta_j y_j.$$
    注意到$\sum\limits_{i=1}^k\alpha\alpha_i+\sum\limits^l_{j=1}(1-\alpha)\beta_j=1$.且$\alpha\alpha_i\geq 0, (1-\alpha)\beta_j\geq 0$.\\
    可知, $\alpha z_1+(1-\alpha)z_2$为$x_1,\cdots,x_k,y_1,\cdots,y_l$的凸组合,从而为$\text{conv}X$中的向量.即证.
\end{proof}
~\par
从凸包的定义可知, $\text{conv}X$中的向量是$X$中的$k$个向量的凸组合.但并不清楚\textcolor[rgb]{1,0,0}{$k$的取值},也不明确\textcolor[rgb]{1,0,0}{应选取$X$中哪些向量进行凸组合}.下述由Caratheodory发现的结果回答了第一个问题,也即$k$的取值不会超过$n+1$.

\begin{theorem}{Caratheodory引理, 1911}\label{thm2:1}
    设$X\subseteq \mathbb{R}^n,x\in \text{conv}X$.则存在$\{x_1,\cdots,x_{n+1}\}\subset X,\lambda\in \Delta_{n+1}.$使得$x=\sum\limits^{n+1}_{i=1}\lambda_ix_i$.
\end{theorem}

\begin{proof}
    $x\in \text{conv}X\Rightarrow \exists k$个向量$\{x_1,\cdots,x_k\}\subset X,\lambda\in\Delta_k$, s.t.
    $$\left\{
        \begin{aligned}
            x & =\lambda_1x_1+\cdots+\lambda_kx_k, \\
            1 & =\lambda_1+\cdots+\lambda_k.
        \end{aligned}
        \right.
    $$
    不妨设$\lambda_i>0,i=1,\cdots,k, $\\
    $\bar{x}=\left(\begin{array}{cc}x \\1\end{array}\right),\bar{x}_i=\left(\begin{array}{ccc}x_i \\1\end{array} \right),i=1,\cdots,k.$(否则消去取值为0的$\lambda_i$,并更新$k$)
    令$$\bar{x},\bar{x}_i\in\mathbb{R}^{n+1}\text{且}\bar{x}=A\lambda.$$
    其中$A=(\bar{x}_1,\cdots,\bar{x}_k)\in\mathbb{R}^{(n+1)\times k}.$\\
    若$k>n+1$,则矩阵$A$必定列相关,从而$\exists \beta\in \mathbb{R}^k\backslash\{0\}$,使得$A\beta=0$.由于$A$的最后一行的元素均为1,可知$\sum\limits^k_{i=1}\beta_i=0$.至此,恒有
    $$\bar{x}=A(\lambda+\tau \beta).$$
    其中$\tau\in\mathbb{R}$.由$\sum\limits^k_{i=1}\beta=0$且$\beta_i$不恒为0知$I=\{i:\beta_i<0\}$非空.
    令$\tau_0=\min\{-\frac{\lambda_i}{\beta_i}:i\in I\}$则$\tau_0>0$且$\lambda_i+\tau_0\beta_i\geq0,i=1,\cdots,k$.记$\tilde{\lambda}_i=\lambda_i+\tau_0\beta_i,i=1,\cdots,k$.则$\tilde{\lambda}_i\in\Delta_k$且$x=\sum\limits^k_{i=1}\tilde{\lambda}_ix_i$.\\
    由$\tau_0$的定义至少存在一个$\tilde{\lambda}_i=0$.因此, $x$可由$k-1$个$X$中的向量进行凸组合,继续上述论证直至$k\leq n+1$.证毕.
\end{proof}
~\par
为回答第二个问题,先引入极点的概念.

\begin{definition}\label{def2:4}
    设$X\subset\mathbb{R}^n,x\in X$.若不存在$X$中互异的两个向量$x_1,x_2$以及$\lambda\in(0,1)$使得$x=\lambda x_1+(1-\lambda)x_2$,则称$x$为$X$的一个极点,极点构成的集记为$\text{ext}(X)$.
\end{definition}

Minkowski给出了第一个问题的答案.在泛函分析领域,该结果也称为Krein-Milman定理,证明从略.

\begin{theorem}\label{thm2:2}
    设$X\subset\mathbb{R}^n$为紧的凸集.则
    $$X=\text{conv}X=\text{conv ext}(X).$$
\end{theorem}

\begin{problemset}
    \item 举例说明两个凸集的并不一定为凸集.
    \item 证明下述集合为非凸的:
    $$A=\{x\in\mathbb{R}^2:x_1^2-x_2^2+x_1+x_2\leq 4\}.$$
    \item 设$a,b\in\mathbb{R}^n$.试确定$\mu$的取值范围使得下述集合为凸的:
    $$A=\{x\in\mathbb{R}^n:\| x-a\|-\mu\| x-b\| \leq 0\}.$$
    \item 证明$\text{conv}\{e_1,e_2,-e_1,-e_2\}=\{x\in\mathbb{R}^2:\| x\|_1\leq 1\}$.其中$e_1=(1,0)^T,e_2=(0,1)^T$.
    \item 设$A,B\subseteq \mathbb{R}^n$.证明
    $$\text{conv}(A+B)=\text{conv}A+\text{conv}B.$$
    \item 设$A\subset\mathbb{R}^n$为非空闭集且对任意$x,y\in A$均有$\frac{x+y}{2}\in A$.证明$A$必为凸集.\\(hint:第\ref{chap:1}章的练习6)
\end{problemset}

\chapter{投影}\label{chap:3}
记$P_V$为到$\mathbb{R}^n$的子空间$V$的正交投影算子,则$P_V:x\rightarrow P_V(x)$为:
$$P_V(x)=\mathop{\text{argmin}}\limits_{y\in V}\| x-y\|.$$
\begin{figure}[!htb]\label{fg3:1}
    \centering
    \includegraphics[width=0.4\textwidth]{image/fg7.png}
\end{figure}
~\\
则$P_V$满足下述性质:
\begin{itemize}
    \item[i>] $P_V$为线性(对称,半正定且幂等的)
        $$P_V(\alpha x+\beta y)=\alpha P_V(x)+\beta P_V(y),P_V\circ P_V=P_V.$$
    \item[i'>] 令$x\in\mathbb{R}^n$,则$z=P_V(x)$ 当且仅当 $z\in V$且$\langle v-z,x-z\rangle=0,\forall v\in V. \Leftrightarrow \langle v,x-z\rangle=0.$
    \item[ii>] 非膨胀的: $\| P_V(x)\| \leq \| x\|,x\in \mathbb{R}^n$.
    \item[iii>] 分解性质: $x=P_V(x)+P_{V^\bot}(x),x\in\mathbb{R}^n$.
\end{itemize}
\par
在本节中,我们将该投影算子推广到$V$为闭凸集的情形.

\section{到闭凸集的投影}\label{sec3:1}

\begin{definition}\label{def3:1}
    设$V\subset \mathbb{R}^n$为非空、闭的凸集, $x\in \mathbb{R}^n.$则$x$到$V$的投影定义为$V$中与$x$距离最近的点,记为$\Pi_V(x).$
\end{definition}
下述定理表明这样的投影点存在且唯一.因而记号是合理的.
\begin{theorem}\label{thm3:1}
    设$V\subset \mathbb{R}^n$非空、闭凸.则对任意$x\in\mathbb{R}^n$, $\Pi_V(x)$存在且唯一.
\end{theorem}
\begin{proof}
    记$\mu=\inf\{\| z-x\|:z\in V\}$.则由$V$非空知$\mu \in \mathbb{R}.$由下确界定义知,存在$\{z^k\}\subset V$.使得$\| z^k-x\|\rightarrow \mu$, $k\rightarrow \infty$.从而$\{z^k\}$有界.\\
    因此存在收敛子列$\{z^{k_i}\}$.设其极限为$z$.于是
    $$\| z-x\| =\lim_{i\rightarrow \infty}\| z^{k_i}-x\| =\lim_{k\rightarrow \infty}\| z^k-x\| =\mu.$$
    由$V$的闭性可知$z\in V$, i.e.存在性获证.\\
    为证唯一性.反设存在$z^1,z^2\in V$,使得
    $$\mu =\| z^i-x\|,i=1,2.$$
    考虑$z=\frac{1}{2}(z^1+z^2)$,则$z\in V$且
    \begin{equation*}
        \begin{aligned}
            \| z-x\|^2 & =\| \frac{1}{2}(z^1-x)+\frac{1}{2}(z^2-x)\|^2                                                    \\
                       & =2\|\frac{1}{2}(z^1-x)\|^2+2\|\frac{1}{2}(z^2-x)\|^2-\|\frac{1}{2}(z^1-x)-\frac{1}{2}(z^2-x)\|^2 \\
                       & =\mu^2-\frac{1}{4}\| z^1-z^2\|^2<\mu^2.
        \end{aligned}
    \end{equation*}
    矛盾!此处应用如下公式:
    $$\| a+b\|^2=2\| a\|^2+2\| b\|^2-\| a-b\|^2.$$
    \begin{figure}[!htb]\label{fg3:2}
        \centering
        \includegraphics[width=0.4\textwidth]{image/fg9.png}
    \end{figure}
    即证唯一性.
\end{proof}
~\par
接下来我们推导投影算子的基本性质.
\begin{theorem}{投影定理}\label{thm3:2}
    设$V\subset \mathbb{R}^n$为非空、闭的凸集, $x\in \mathbb{R}^n$.则$z=\Pi_V(x)$当且仅当$z\in V$且
    \begin{equation}\label{eq3:1}
        \langle v-z,x-z\rangle\leq 0,\forall v\in V.
    \end{equation}
\end{theorem}

\begin{proof}
    设$z=\Pi_V(x),v\in V$.往证(\ref{eq3:1})式成立.记
    $$\omega(\alpha)=\alpha v+(1-\alpha)z,\alpha\in(0,1).$$
    则$\omega(\alpha)\in V$且$\| \omega(\alpha)-x\|^2\geq \| z-x\|^2$.
    i.e. $\| z-x\|^2+2\alpha\langle z-x,v-z\rangle+\alpha^2\| v-z\|^2\geq \| z-x\|^2,\forall \alpha\in(0,1). $\\
    从而$2\langle x-z,v-z\rangle\leq \alpha\cdot\| v-z\|^2,\forall \alpha\in(0,1).$\\
    因此可令$\alpha\rightarrow 0$得到$\langle v-z,x-z\rangle\leq 0$,也即(\ref{eq3:1})式成立.\\
    反之若$z\in V$且(\ref{eq3:1})式成立,则必有$z=\Pi_V(x)$.\\
    在(\ref{eq3:1})式中令$v=\Pi_V(x)$可得
    $$\langle \Pi_V(x)-z,x-z\rangle\leq 0.$$
    又重复第一部分的证明可得
    $$\langle z-\Pi_V(x),x-\Pi_V(x)\rangle\leq 0.$$
    上面两式求和可得$\| \Pi_V(x)-z\|^2\leq 0.$\\
    故$z=\Pi_V(x)$.即证.
\end{proof}
~\par
若$V$为子空间,则(\ref{eq3:1})等价于
$$\langle v,x-z\rangle=0,\forall v\in V.$$
因此,\cref{thm3:2}推广了到子空间的投影定理.

\begin{corollary}\label{cor3:1}
    投影算子$\Pi_V$满足:
    \begin{itemize}
        \item[(i)] $V=\text{Fix}\ \Pi_V:=\{x\in\mathbb{R}^n:\Pi_V(x)=x\}$;
        \item[(ii)] $\Pi_V\circ\Pi_V=\Pi_V$.
    \end{itemize}
\end{corollary}

\begin{proof}
    \begin{itemize}
        \item[(i)] $V\subset \text{Fix}\ \Pi_V$显然.反之, $\forall x\in \text{Fix}\ \Pi_V$,则由\cref{thm3:2}知
            $$x=\Pi_V(x)\in V.$$
            因而$\text{Fix}\ \Pi_V\subset V$.故$V=\text{Fix}\ \Pi_V$.
        \item[(ii)] $\forall x\in \mathbb{R}^n,\Pi_V(x)\in V\Rightarrow \Pi_V\circ \Pi_V(x)=\Pi_V(x)$.即证.
    \end{itemize}
\end{proof}

\begin{corollary}\label{cor3:2}
    对任意的$x_1,x_2\in \mathbb{R}^n$,均有:
    \begin{equation}\label{eq3:2}
        \| \Pi_V(x_1)-\Pi_V(x_2)\|^2\leq \langle \Pi_V(x_1)-\Pi_V(x_2),x_1-x_2\rangle.
    \end{equation}
\end{corollary}
\begin{proof}
    令$x=x_1,v=\Pi_V(x_2)\in V$.应用\cref{thm3:2}可得:
    $$\langle \Pi_V(x_2)-\Pi_V(x_1),x_1-\Pi_V(x_1)\rangle\leq 0.$$
    同理,令$x=x_2,v=\Pi_V(x_1)$可得
    $$\langle \Pi_V(x_1)-\Pi_V(x_2),x_2-\Pi_V(x_2)\rangle\leq 0.$$
    结合以上两式可推出公式(\ref{eq3:2}).即证.
\end{proof}
~\par
应用Cauchy-Schwarz不等式于(\ref{eq3:2})的右端可得
$$0\leq \langle \Pi_V(x_1)-\Pi_V(x_2),x_1-x_2\rangle\leq \| \Pi_V(x_1)-\Pi_V(x_2)\|\cdot \| x_1-x_2\|.$$
结合(\ref{eq3:2})式可知
\begin{equation}\label{eq3:3}
    \| \Pi_V(x_1)-\Pi_V(x_2)\| \leq \| x_1-x_2 \|,\forall x_1,x_2\in \mathbb{R}^n.
\end{equation}
也即,投影算子$\Pi_V$为非膨胀的.特别地,若$0\in V$,则有$\| \Pi_V(x)\| \leq \| x\|$.

\section{投影与分离定理}\label{sec3:2}
给定闭的凸集$V\subset \mathbb{R}^n$和$V$外的“点”$x_0\notin V$,下述定理指出:存在超平面$H=\{x\in\mathbb{R}^n:\langle a,x\rangle=\beta\}$将$x_0$与$V$分离,从几何上看, $V$和$x_0$分别位于由$H$分割而成的两个半空间,也即, $V\subset\{x\in\mathbb{R}^n:\langle a,x\rangle<\beta\}$且$x_0\in\{x\in \mathbb{R}^n:\langle a,x\rangle>\beta\}$.

\begin{figure}[!htb]\label{fg3:3}
    \centering
    \includegraphics[width=0.2\textwidth]{image/fg8.png}
\end{figure}

\begin{theorem}{分离定理}\label{thm3:3}
    设$V\subset\mathbb{R}^n$为闭的凸集, $x_0\notin V$.则存在超平面$H=\{x\in\mathbb{R}^n:\langle a,x\rangle=\beta\}$使得$\langle a,x_0\rangle >\beta$且$\langle a,x\rangle<\beta,\forall x\in V$.
\end{theorem}

\begin{proof}
    记$\bar{x}_0:=\Pi_V(x_0),a=x_0-\bar{x}_0,\beta=\frac{1}{2}(\| x_0\|^2-\| \bar{x}_0\|^2)$.则应用投影\cref{thm3:2}可知$\bar{x}_0\neq x_0$且$$\langle x_0-\bar{x}_0,v-\bar{x}_0\rangle\leq 0,\forall v\in V.$$
    于是,\begin{align*}
        \langle a,v\rangle & \leq \langle x_0-\bar{x}_0,\bar{x}_0\rangle \\
                           & =\beta -\frac{1}{2}\| x_0-\bar{x}_0\|^2     \\
                           & <\beta,\qquad \forall v\in V.
    \end{align*}
    另一方面,\begin{align*}
        \langle a,x_0\rangle & = \langle x_0-\bar{x}_0,x_0\rangle                           \\
                             & =\| x_0-\bar{x}_0\|^2+\langle x_0-\bar{x}_0,\bar{x}_0\rangle \\
                             & =\beta +\frac{1}{2}\| x_0-\bar{x}_0\|^2                      \\
                             & >\beta.
    \end{align*}
    证毕.
\end{proof}
~\par
\cref{thm3:3}的结论可等价地描述为:\\
存在非零向量$a\in\mathbb{R}^n,\varepsilon>0, $使得
\begin{equation}\label{eq3:4}
    \langle a,v\rangle\leq \langle a,x_0\rangle-\varepsilon,\forall v\in V.
\end{equation}

若$V$非闭, $x_0\notin V$可能为$V$的边界点,此时分离超平面$V$可能穿过$x_0$与$V$“相切”.分离定理有如下弱化的版本.

\begin{corollary}{弱分离定理}\label{cor3:3}
    设$V$为$\mathbb{R}^n$的凸子集且$x_0\notin V$.则存在非零向量$a\in\mathbb{R}^n$使得
    \begin{equation*}
        \langle a,v\rangle\leq \langle a,x_0\rangle,\forall v\in V.
    \end{equation*}
\end{corollary}

\begin{proof}
    考虑$V$的闭包$\bar{V}$.由$x_0\notin V\subset \bar{V}$可知$\bar{V}\neq \mathbb{R}^n$.从而, $\bar{V}^c\neq \emptyset$且存在$\{x_k\}^\infty_{k=1}\subset \bar{V}^c$使得$x_k\rightarrow x_0,k\rightarrow \infty.$由$x_k\notin \bar{V}$(闭凸集)及\cref{thm3:3}可知,存在非零向量$a_k\in \mathbb{R}^n,k=1,2,\cdots, $使得
    \begin{equation}\label{eq3:5}
        \langle a_k,v\rangle\leq \langle a_k,x_0\rangle,\forall v\in V.
    \end{equation}
    由$a_k\neq 0, $可对$a_k$归一化处理,使上式仍然成立.于是可不妨设$\| a_k\| =1$.设$a$为$\{a_k\}$的一个聚类.也即存在子列$\{k_i\}$使得$a_{k_i}\rightarrow a$.综合(\ref{eq3:5})可知结论成立.证毕.
\end{proof}
~\par
进一步地,可用超平面将两个无交的凸集分离.

\begin{corollary}{凸集分离}\label{cor3:4}
    设$X_1,X_2$为$\mathbb{R}^n$的凸子集且$X_1\cap X_2=\emptyset$.则存在非零向量$a\in\mathbb{R}^n$使得$$\langle a,x_1\rangle\leq \langle a,x_2\rangle,\forall x_1\in X_1,x_2\in X_2.$$
\end{corollary}

\begin{proof}
    令$X=X_1-X_2.$则$X$为$\mathbb{R}^n$的凸子集且由$X_1\cap X_2=\emptyset$知$0\notin X.$于是由\cref{cor3:3}知存在非零向量$a\in\mathbb{R}^n$,使得$\langle a,v\rangle\leq \langle a,0\rangle=0,\forall v\in X.$从而结论成立.即证.
\end{proof}

\section{投影计算}\label{sec3:3}

\begin{example}{到正卦限的投影}\label{exa3:1}
    令$V=\mathbb{R}^n_+.$给定$x\in\mathbb{R}^n$.则计算$x$到$V$的投影等价于求解问题:
    \begin{equation*}
        \begin{aligned}
             & \text{min}  & \sum^n_{i=1}(y_i-x_i)^2,  \\
             & \text{s.t.} & y_1,y_2,\cdots,y_n\geq 0.
        \end{aligned}
    \end{equation*}
    由于变量的分离性,上述问题进一步等价于
    $$\min \{(y_i-x_i)^2:y_i\geq 0\}.$$
    易知,其解为$y^*_i=[x_i]_+$,其中
    \begin{equation*}
        [x_i]_+:=\left\{\begin{array}{ccc}
            x_i, & x_i\geq 0, \\
            0,   & x_i< 0.
        \end{array}\right.
    \end{equation*}
    基于该记号. $x$到$\mathbb{R}^n_+$的投影向量为
    $$\Pi_{\mathbb{R}^n_+}(x)=[x]_+=([x_1]_+,\cdots,[x_n]_+).$$
\end{example}

\begin{example}{到范数球的投影}\label{exa3:2}
    令$V=\{x\in\mathbb{R}^n:\| x\|\leq r\}$.则$x$到$V$的投影为
    $$\Pi_V(x)=\mathop{\text{argmin}}\{\| y-x\|^2:\| y\|^2\leq r^2\}.$$
    \begin{itemize}
        \item 若$\| x\|\leq r$,则显然有$\Pi_V(x)=x$;
        \item 若$\| x\| > r$,则必有$\Pi_V(x)\in \partial{V}$.否则,上述约束优化等价于无约束优化.从而$y=x$时达到极小,这与$\| x\| =\| y\|\leq r$矛盾.于是,  $\Pi_V(x)=\mathop{\text{argmin}} \{\| y-x\|^2:\| y\| = r \}.$
    \end{itemize}
    此时目标函数\begin{align*}
        \| y-x\|^2 & =\| y\|^2-2\langle x,y\rangle+\| x\|^2 \\
                   & =r^2-2\langle x,y\rangle+\| x\|^2.
    \end{align*}
    由Cauchy-Schwarz不等式. $-2x^Ty\geq -2\| x\|\cdot \| y\|=-2r\| x\|$,等号于$y=r\frac{x}{\| x\|}$取得.因而,最优解为
    $$\Pi_V(x)=r\cdot \frac{x}{\| x\|}.$$
    综上,我们有
    \begin{equation*}
        \Pi_V(x)=\left\{\begin{array}{cccc}
            x,                      & \| x\| \leq r ; \\
            r\cdot\frac{x}{\| x\|}, & \| x\| >r.
        \end{array}\right.
    \end{equation*}
\end{example}

\begin{example}{到超平面的投影}\label{exa3:3}
    令$V=H=\{y\in \mathbb{R}^n:\langle a,y\rangle=\beta\}$. $x\in\mathbb{R}^n$.则$x$到$H$的投影为:
    $$\Pi_H(x)=\mathop{\text{argmin}} \{\| y-x\|:a^Ty=\beta\}.$$
    为计算$\Pi_H(x), $先将到超平面的投影转换为到子空间的投影.设$x_0\in\mathbb{R}^n$满足$$\beta=a^Tx_0.$$
    令$z=y-x_0$.则$$\Pi_H(x)-x_0=\tilde{z}=\mathop{\text{argmin}}\{\| z-(x-x_0)\|:a^Tz=0\}.$$
    于是$\exists \alpha$, s.t. $\tilde{z}-(x-x_0)=\alpha\cdot a$,由$a^T\tilde{z}=0$可知
    $$\alpha=\frac{a^T[\tilde{z}-(x-x_0)]}{\| a\|^2}=-\frac{a^T(x-x_0)}{\| a\|^2}.$$
    从而,
    $$\tilde{z}=(I-\frac{aa^T}{\| a\|^2})(x-x_0).$$
    因此,\begin{align*}
        \Pi_H(x) & =x_0+\tilde{z}                   \\
                 & =x-\frac{a^Tx-\beta}{\| a\|^2}a.
    \end{align*}
    综上, $\Pi_H(x)=x+\frac{\beta-a^Tx}{\| a\|^2}a.$
\end{example}

\section{应用:随机Kaczmarz算法}\label{sec3:4}
Kaczmarz算法是波兰数学家于1937年提出的一类求解线性方程组$Ax=b$的迭代方法,其中$A\in\mathbb{R}^{m\times n},b\in\mathbb{R}^n.$ Kaczmarz的算法思想源于如下的几何观察:
$$\Omega=\{x\in\mathbb{R}^n:Ax=b\}=\bigcap\limits^m_{i=1}\{x\in\mathbb{R}^n:a^T_ix=b_i\}.$$
其中$a_i$为$A$的第$i$行构成的向量,而$b_i$为$b$的第$i$个元素.换言之,方程组的解集可表示为$m$个超平面
$$H_i=\{x\in\mathbb{R}^n:a_i^Tx=b_i\},i=1,\cdots,m$$
的交集.在高维情形中,解空间$\Omega$的形状可能十分复杂.但交集中的每个超平面为仿射空间,相对比较简单. Kaczmarz提出的原始方法为:以一种循环的方式依次往超平面集上进行投影.也即,
$$x_{k+1}=\Pi_{H_{i_k}}(x_k),i_k=(k+1)\bmod m.$$
应用\cref{exa3:3}可知,
\begin{equation}\label{eq3:6}
    x_{k+1}=x_k+\frac{b_{i_k}-a^T_{i_k}x_k}{\| a_{i_k}\|^2}\cdot a_{i_k}.
\end{equation}
直观地,上述迭代如下图所示.将最终收敛到$\bar{x}\in\Omega.$
\begin{figure}[!htb]\label{fg3:4}
    \centering
    \includegraphics[width=0.55\textwidth]{image/fg2.png}
\end{figure}\\
若定义序贯投影$\Pi_A=\Pi_m\cdot\Pi_{m-1}\cdots\Pi_2\cdot\Pi_1.$
则Kaczmarz算法可写为
$$x_{k+1}=\Pi_Ax_k.$$
其收敛性为下述引理的推论.
\begin{lemma}\label{lem3:1}
    令$M_1,M_2,\cdots,M_m$为$\mathbb{R}^n$的仿射子空间且
    $$M=\bigcap\limits^m_{i=1}M_i\neq \emptyset.$$
    则对任意$x_0\in \mathbb{R}^n$,均有
    $$\lim_{k\rightarrow \infty}(\Pi_{M_m}\Pi_{M_{m-1}}\cdots\Pi_{M_1})^k(x_0)=\Pi_M(x_0).$$
\end{lemma}

不难看出, Kaczmarz算法收敛到初始点$x_0$到解空间$\Omega$的投影点.若取$x_0=0$,则相应的投影点为$\Omega$中的最小范数解. Kaczmarz算法的收敛速率依赖于超平面$\{H_i\}$之间的“夹角”.这一事实可从$m=2$的情形观察到:当$H_1$与$H_2$的夹角比较小时,收敛较慢.反之,则更快.可以证明, Kaczmarz算法线性地收敛.但收敛率依赖于超平面之间的几何结构,难以估计!
\begin{figure}[htbp]\label{fg3:5}
    \centering
    \begin{minipage}[t]{0.48\textwidth}
        \centering
        \includegraphics[width=6cm]{image/fg3.png}
    \end{minipage}
    \begin{minipage}[t]{0.48\textwidth}
        \centering
        \includegraphics[width=6cm]{image/fg4.png}
    \end{minipage}
\end{figure}

最近, Strohmer和Vershynin研究了随机化的Kaczmarz算法并推导出了优雅的线性收敛率公式.下面,我们先介绍随机Kaczmarz算法,再推导线性收敛率.\par
在第$k$次迭代,先以概率$P_i=\frac{\| a_i\|^2}{\| A\|_F^2}$选取第$i$个超平面$H_i$,再将当前点$x_k$正交投影到$H_i$上,从而得到新的迭代.也即
\begin{equation}\label{eq3:7}
    x_{k+1}=x_k+\frac{b_i-a_i^Tx_k}{\| a_i\|^2}a_i,i\sim P_i.
\end{equation}

\begin{theorem}\label{thm3:4}
    设$\sigma_{\text{min}}(A)$是$A$的最小奇异值$,\bar{x}\in\Omega.$则随机Kaczmarz算法按下述方式线性收敛:
    \begin{equation}\label{eq3:8}
        E\| x_k-\bar{x}\|^2\leq(1-\frac{\sigma^2_{\text{min}}(A)}{\| A\|^2_F})^k\| x_0-\bar{x}\|^2.
    \end{equation}
\end{theorem}

\begin{proof}
    由迭代公式(\ref{eq3:7})知$x_{k+1}-x_k\in \text{Range}\{a_i\}$.
    另一方面,由$a^T_i(x_{k+1}-\bar{x})=b_i-a_i^T \bar{x}=0$知
    $$x_{k+1}-\bar{x}\in\text{Null}\{a_i\}.$$
    据$\text{Range}\{a_i\}\perp \text{Null}\{a_i\}$可知
    \begin{align*}
        \| x_k-\bar{x}\|^2 & =\| x_k-x_{k+1}+x_{k+1}-\bar{x}\|^2=\| x_{k+1}-x_k\|^2+\| x_{k+1}-\bar{x}\|^2.
    \end{align*}
    于是,\begin{align*}
        E\| x_{k+1}-\bar{x}\|^2 & =\| x_k-\bar{x}\|^2-E\| x_{k+1}-x_k\|^2                                                                               \\
                                & =\| x_k-\bar{x}\|^2-\sum^m_{i=1}\frac{\| a_i\|^2}{\| A\|^2_F}\cdot\frac{(b_i-a_i^Tx_k)^2}{((\| a_i\|)^2)^2}\| a_i\|^2 \\
                                & =\| x_k-\bar{x}\|^2-\frac{1}{\| A\|_F^2}\| Ax_k-b\|^2                                                                 \\
                                & =\| x_k-\bar{x}\|^2-\frac{1}{\| A\|_F^2}\langle x_k-\bar{x},A^TA(x_k-\bar{x})\rangle                                  \\
                                & \leq (1-\frac{\sigma^2_{\text{min}(A)}}{\| A\|^2_F})\| x_k-\bar{x}\|^2.
    \end{align*}
    从而可得(\ref{eq3:8})式.证毕.
\end{proof}

\begin{problemset}
    \item (投影定理的等价形式)设$\Omega\subset\mathbb{R}^n$为非空闭凸集, $x\in\mathbb{R}^n,P_x\in\Omega.$证明$P_x=\Pi_\Omega(x)$当且仅当
    $$\langle x-y,y-P_x\rangle\leq 0,\forall y\in\Omega.$$
    \item 设闭凸集$C\subset\mathbb{R}^n$,矩阵$A\in\mathbb{R}^{m\times n}$,向量$b\in\mathbb{R}^m$满足条件
    $$C\subset M:=\{x\in\mathbb{R}^n:Ax=b\}.$$
    证明: $\Pi_C\circ\Pi_M=\Pi_C.$
    \item 设$\Omega \subset\mathbb{R}^n$为非空闭凸集, $x\in\mathbb{R}^n,y\in\mathbb{R}^n,\rho\in\mathbb{R}$且$\rho\neq 0,A\in\mathbb{R}^{n\times n}$为可逆矩阵.证明:
    \begin{itemize}
        \item[(i)] 若$D=y+\Omega$,则$\Pi_D(x)=y+\Pi_\Omega(x-y)$;
        \item[(ii)] 若$D=\rho\cdot\Omega$,则$\Pi_D(x)=\rho\cdot\Pi_\Omega(\rho^{-1}x)$;
        \item[(iii)] 若$D=A\Omega$,则$\Pi_D(x)=A\cdot\Pi_\Omega(A^{-1}x)$.
    \end{itemize}
    \item 设$C,D\subset\mathbb{R}^n$均为非空闭凸集, $x\in\mathbb{R}^n$,且$\Pi_C(x)\in D$.证明: $\Pi_{C\cap D}(x)=\Pi_C(x)$.
    \item 设$\{C_n\}$为$\mathbb{R}^n$的非空闭凸集列满足$C_{n+1}\subset C_n$.令$C=\bigcap\limits^\infty_{n=1}C_n$且$C\neq \emptyset$.证明: $\Pi_{C_n}(x)\rightarrow \Pi_C(x),\forall x\in\mathbb{R}^n$.
    \item 设$a\in\mathbb{R}^n$非零$,b\in\mathbb{R},\Omega=\{x:\langle a,x\rangle\leq b\},x\in\mathbb{R}^n$,试求$\Pi_\Omega(x)$.
    \item (严格分离定理)设$X_1,X_2\subset\mathbb{R}^n$为闭凸集且$X_1$有界.若$X_1\cap X_2=\emptyset$.则存在非零$a\in\mathbb{R}^n$及$\varepsilon>0$.使得$$\langle a,x^1\rangle\leq \langle a,x^2\rangle-\varepsilon,\forall x^i\in X_i.$$
    举例说明$X_1$的有界性条件不可或缺.
    \item 令$A$的第$\ell$个奇异值及相应的左、右奇异向量分别为$\sigma_\ell,u_\ell,v_\ell.$也即$u_\ell^TAv_\ell=\sigma_\ell$.证明随机Kaczmarz算法满足如下的线性收敛性:
    $$E\langle x_k-x,v_\ell\rangle=(1-\frac{\sigma^2_\ell}{\| A\|^2_F})^k\langle x_0-x,v_\ell\rangle.$$
\end{problemset}

\chapter{锥}\label{chap:4}
一类称为凸锥的特殊的凸集将在优化理论中发挥重要作用.
\section{锥的概念与性质}\label{sec4:1}
\begin{definition}\label{def4:1}
    设$K\subset\mathbb{R}^n$.若任意$x\in K$以及任意$\alpha>0$,均有$\alpha x\in K$,则称$K$为锥.若$K$同时也为凸集,则称$K$为凸锥.
\end{definition}
直观地,若将集合$\ell_x:=\{y\in\mathbb{R}^n:y=\alpha x,\alpha>0\}$理解成从原点发的一条射线.则锥$K$包含所有这样的射线$\ell_x$, $\forall x\in K$.

\begin{example}\label{exa4:1}
    非负卦限
    $$\mathbb{R}^m_+:=\{x\in\mathbb{R}^n:x_i\geq 0,i=1,\cdots,n\}$$
    为$\mathbb{R}^n$的一个凸锥.
\end{example}
从一个凸集$X$出发,可构造一个包含$X$的最小的凸锥.该凸锥称为$X$的生成锥.记为$\text{cone}(X)$.则
$$\text{cone}(X)=\bigcap_{\substack{Y\supset X,0\in Y \\Y\text{为凸锥}}}Y$$
该抽象的定义有如下具体的表达式:
$$\text{cone}(X)=\{rx:x\in X,r\geq 0\}.$$
上式通常也作为$X$生成锥的定义.

\begin{lemma}\label{lem4:1}
    设$X\subset\mathbb{R}^n$为凸集,则其生成锥$\text{cone}(X)$为凸锥.
\end{lemma}

\begin{proof}
    显然$\text{cone}(X)$为锥,仅验证其凸性.为此考虑
    \begin{equation*}
        \begin{aligned}
            d_1          & =r_1x_1,\ x_1\in X,            \\
            d_2          & =r_2x_2,\ x_2\in X,            \\
            d=\alpha d_1 & +(1-\alpha)d_2,\alpha\in(0,1).
        \end{aligned}
    \end{equation*}
    不妨设$r_1\neq 0$且$r_2\neq 0$.此时,
    \begin{equation*}
        \begin{aligned}
            d & =\alpha r_1x_1+(1-\alpha)r_2x_2                                                             \\
              & =[\alpha r_1+(1-\alpha)r_2]\frac{\alpha r_1x_1+(1-\alpha)r_2x_2}{\alpha r_1+(1-\alpha)r_2}.
        \end{aligned}
    \end{equation*}
    由$X$的凸性可知
    $$\frac{\alpha r_1x_1+(1-\alpha)r_2x_2}{\alpha r_1+(1-\alpha)r_2}\in X.$$
    又$r=\alpha r_1+(1-\alpha)r_2\geq 0$.故$d\in \text{cone}(X)$.即证.
\end{proof}

\begin{definition}\label{def4:2}
    设$X\subset\mathbb{R}^n$为凸集且$x\in X$,则称$$K_X(x):=\text{cone}(X-x)$$为$X$在$x$处的可行方向锥.
\end{definition}

可行方向锥是研究(抽象)最优化条件的重要工具,它是凸集的半线性近似,如下图所示.
\begin{figure}[!htb]\label{fg4:1}
    \centering
    \includegraphics[width=0.6\textwidth]{image/fg5.png}
\end{figure}\par
类似于线性空间的正交补,“半线性”的锥也有补集的概念,称之为极锥.定义如下:

\begin{definition}\label{def4:3}
    设$K\subset\mathbb{R}^n$为锥.则称
    $$K^\circ:=\{y\in \mathbb{R}^n:\langle y,x\rangle\leq 0,\forall x\in K\}$$
    为$K$的极锥.
\end{definition}

\begin{example}\label{exa4:2}
    正卦限的极锥为
    $$(\mathbb{R}^n_+)^\circ=-\mathbb{R}^n_+=\{y\in\mathbb{R}^n:y_i\leq 0,i=1,\cdots,n\}.$$
\end{example}

关于极锥,有如下重要性质.
\begin{theorem}\label{thm4:1}
    设$K\subset\mathbb{R}^n$为凸锥.则
    \begin{itemize}
        \item[(i)] $K^\circ$为闭的凸锥;
        \item[(ii)] $K^\circ=(\bar{K})^\circ$;
        \item[(iii)] 若$K$为闭的,则$K^{\circ\circ}=K$.
    \end{itemize}
\end{theorem}

\begin{proof}
    由\cref{def4:3}可直接推出(i)与(ii)反证(iii).\\
    设$x\in K$,则有$\langle x,y\rangle\leq 0$, $\forall y\in K^\circ.$从而$x\in K^{\circ\circ}$.于是$K\subset K^{\circ\circ}$.\\
    反设$K^{\circ\circ}\backslash K$非空,则可取$z\in K^{\circ\circ}\backslash K$.
    由$K$为闭凸集且$z\in K$及分离定理可知存在非零向量$a\in \mathbb{R}^n$及$\varepsilon >0$.使得
    \begin{equation}\label{eq4:1}
        \langle a,v\rangle\leq \langle a,z\rangle-\varepsilon,\forall v\in K.
    \end{equation}
    则必有$a\in K^\circ$.否则,存在$\bar{v}\in K$使得
    $$\langle a,\bar{v}\rangle>0.$$
    在(\ref{eq4:1})式中取$v=\lambda \bar{v}\in K$, $\lambda>0$.可知左端可趋于正无穷.这与左端为有限常数矛盾.现由$a\in K^\circ$及$z\in K^{\circ\circ}$知
    $$\langle a,z\rangle\leq 0.$$
    但(\ref{eq4:1})式推出$\langle a,z\rangle\geq \langle a,v\rangle+\varepsilon$, $\forall v\in K$.令$v$趋于$0$,知$\langle a,z\rangle \geq \varepsilon$.从而矛盾!
\end{proof}

\section{Farkas引理与备择定理}\label{sec4:2}
基于锥的概念,我们可以得到由Gyular Farkas于1894年建立的引理,现通常称为Farkas引理,是凸分析和最优化理论中的重要结果.

\begin{lemma}{Farkas, 1894}\label{lem4:2}
    设$A\in\mathbb{R}^{m\times n}$.则有
    $$\{x\in\mathbb{R}^n:Ax\leq 0\}^\circ=\{y\in\mathbb{R}^n:y=A^T\lambda,\lambda\geq 0\}.$$
\end{lemma}

\begin{proof}
    记$K=\{x\in\mathbb{R}^n:Ax\leq 0\},B=\{y\in\mathbb{R}^n:y=A^T\lambda,\lambda\geq 0\}.$\\
    设$y\in B$.对任意$x\in K$均有
    $$\langle y,x\rangle=\langle A^T\lambda,x\rangle=\langle \lambda,Ax\rangle\leq 0.$$
    因此, $y\in K^\circ$.从而$B\subset K^\circ$.\\
    反设$K^\circ\backslash B\neq \emptyset$.可取$\bar{y}\in K^\circ\backslash B$.注意到$B$为闭凸集.由分离定理可知存在非零$a\in\mathbb{R}^n$及$\varepsilon>0$,使得:
    \begin{equation}\label{eq4:2}
        \langle A^T\lambda,a\rangle\leq \langle \bar{y},a\rangle-\varepsilon,\forall \lambda\geq 0.
    \end{equation}
    分$a\in K$与$a\notin K$考虑.\\
    当$a\in K$时, $\langle \bar{y},a\rangle\leq 0$.从而, $\forall\lambda\geq 0$均有
    $$\langle A^T\lambda,a\rangle\leq -\varepsilon.$$
    在上式中令$\lambda\rightarrow 0_+$可得$0\leq -\varepsilon<0$.矛盾!\\
    当$a\notin K$时, $Aa\leq 0$不成立.从而至少存在一个元素大于零,不妨$(Aa)_{i_0}>0$.现取$\lambda\geq 0$满足$\lambda_i=0,i\neq i_0$.于是\begin{equation*}
        \langle A^T\lambda,a\rangle=\langle\lambda,Aa\rangle=\lambda_{i_0}(Aa)_{i_0}\rightarrow\infty,\lambda_{i_0}\rightarrow\infty.
    \end{equation*}
    这与(\ref{eq4:2})式中右端为有限实数矛盾!\\
    据上可知$K^\circ\backslash B=\emptyset$,也即$K^\circ=B$.证毕.
\end{proof}
~\par
Farkas引理有下述的等价形式.

\begin{theorem}{备择定理}\label{thm4:2}
    设$A\in\mathbb{R}^{m\times n}$, $c\in\mathbb{R}^n$.则下述命题有且仅有一个成立.
    \begin{itemize}
        \item[(i)] 存在$x$使得$Ax\leq 0$且$\langle c,x\rangle>0$;
        \item[(ii)] 存在$\lambda\geq 0$使得$c=A^T\lambda$.
    \end{itemize}
\end{theorem}

\begin{proof}
    记$K=\{x\in\mathbb{R}^n:Ax\leq 0\}$.则由Farkas引理知(i) $\Leftrightarrow c\notin K^\circ$.而(ii) $\Leftrightarrow c\in K^\circ$.\\
    显然$c\notin K^\circ$与$c\in K^\circ$有且仅有一个成立.
\end{proof}

\section{线性规划的对偶定理}\label{sec4:3}
在本节,我们将应用备择定理证明线性规划的对偶定理.首先介绍标准的线性规划问题.给定矩阵$A\in\mathbb{R}^{m\times n}$, $b\in\mathbb{R}^m$, $c\in\mathbb{R}^n$.线性规划的原问题为如下约束最优化问题:
\begin{gather}\label{P}
    p^*=\text{min} \langle c,x\rangle, \tag{P} \\
    \text{s.t. } Ax=b,x\geq 0.\notag
\end{gather}

为简单起见,不妨设可行解$\Omega=\{x\in\mathbb{R}^n:Ax=b,x\geq 0\}\neq \emptyset$.且最优值$p^*\in\mathbb{R}$,后者隐含问题(\ref{P})最优解的存在性.\\
事实上,存在序列$\{x_k\}\subset\Omega$使得$p^*=\lim\limits_{k\rightarrow \infty}\langle c,x_k\rangle$...(后续自行补充)\\
我们先导出(\ref{P})的对偶问题.假设我们需要对$p^*$进行估计,为此引入参变量$y\geq 0$,对不等式方程组$Ax\geq b$加权求和得到$y^TAx\geq y^Tb$,从而
$$(A^Ty)^Tx\geq y^Tb,\forall y\geq 0.$$
注意到$x\geq 0$,若能取参变量$y$使得$c\geq A^Ty$则
$$c^Tx\geq (A^Ty)^Tx\geq b^Ty.$$
从而$b^Ty$提供了$p^*$的一个估计.为得到最优估计,自然考虑
\begin{gather}\label{D}
    d^*=\text{max} \langle b,y\rangle, \tag{D} \\
    \text{s.t. } A^Ty\leq c.\notag
\end{gather}
该问题称为(\ref{P})的对偶问题.据上述分析,显然成立弱对偶关系$p^*\geq d^*$.

\begin{theorem}\label{thm4:3}
    设原问题最优值$p^*\in\mathbb{R}$.则有$p^*=d^*$.
\end{theorem}

\begin{proof}
    现将(\ref{P})等价地写成如下线性系统:
    \begin{equation}\label{eq4:3}
        \left\{\begin{array}{cc}
            Ax=b,     & x\geq 0, \\
            c^Tx=p^*. &
        \end{array}\right.
    \end{equation}
\end{proof}
~\par
由$p^*$的有限性意味着(\ref{P})存在最优解$x^*$,可知$x^*$为(\ref{eq4:3})的可行解.令$\bar{A}=\left[\begin{array}{cc}A\\-c^T\end{array}\right],\bar{b}=\left[\begin{array}{cc}b\\-p^*\end{array}\right]$.\\
则(\ref{eq4:3})可写成矩阵形式$\bar{A}x=\bar{b}$, $x\geq 0$.\\
设$\varepsilon>0$并令$\bar{b}_\varepsilon=\left[\begin{array}{cc}b\\-p^*+\varepsilon\end{array}\right]$.则扰动后的系统
\begin{equation}\label{eq4:4}
    \bar{A}x=\bar{b}_\varepsilon,x\geq 0
\end{equation}
无解.否则, $c^Tx=p^*-\varepsilon<p^*$与最优性矛盾.应用备择定理于(\ref{eq4:4})式可知存在$\bar{y}=\left[\begin{array}{cc}y\\ \alpha \end{array}\right]\in\mathbb{R}^{m+1}$.\\使$\bar{A}^T\bar{y}\leq 0$且$\bar{b}^T_\varepsilon\bar{y}>0$.也即, $A^Ty\leq \alpha c$且$b^Ty > \alpha(p^*-\varepsilon)$.\\
由$\alpha(p^*-\varepsilon)<b^Ty=(x^*)^TA^Ty\leq \alpha(x^*)^Tc=\alpha p^*$,可知$\alpha >0$.现令$\hat{y}=y/\alpha$.则
$$A^T\hat{y}\leq c\text{且}b^T\hat{y}>p^*-\varepsilon.$$
令$\varepsilon\rightarrow 0$可知$b^T\hat{y}\geq p^*$.从而$d^*\geq p^*$.再结合弱对偶可知$p^*=d^*$.证毕.

\begin{problemset}
    \item 证明集合$S\subset\mathbb{R}^n$为凸锥当且仅当以下性质成立:
    \begin{itemize}
        \item[i)] $x,y\in S\Rightarrow x+y\in S$;
        \item[ii)] $x\in S,\lambda\geq 0\Rightarrow\lambda x\in S$.
    \end{itemize}
    并据此证明Lorenz锥$L$为凸锥.
    $$L:=\{\left(\begin{array}{cc}x\\t\end{array}\right)\in\mathbb{R}^{n+1}:\| x\|\leq t,x\in\mathbb{R}^n,t\in\mathbb{R}\}.$$
    \item (锥上投影的充要条件)设$K\subset\mathbb{R}^n$为闭的凸锥, $x\in \mathbb{R}^n$.则$z=\Pi_K(x)$当且仅当$z\in K$且
    $$x-z\in K^\circ,\langle x-z,z\rangle=0.$$
    \item 设$X\subset\mathbb{R}^n$为凸集.令
    $$X_\infty:=\{d\in\mathbb{R}^n:X+\{d\}\subset X\}.$$
    证明$X_\infty$为凸锥.
    \item 设$x\in \text{int} K$,其中$K$为凸锥.证明
    $$\langle y,x\rangle<0,\forall 0\neq y\in K^\circ.$$
    \item (线性规划与二次规划最优解的存在性)设$Q\in\mathbb{R}^{n\times n}$为对称的半正定矩阵, $c,a_1,\cdots,a_r\in\mathbb{R}^n$, $b_1,\cdots,b_r\in\mathbb{R}$.记
    $$\bar{f}=\inf \{x^TQx+c^Tx:a_i^Tx+b_i\leq 0,i=1,\cdots,r\}.$$
    证明: 若$\bar{f}>-\infty$,则该优化问题必存在最优解.
\end{problemset}

\chapter{凸函数}\label{chap:5}
\section{定义与例子}\label{sec5:1}
在给出凸函数的一般定义前,我们先引入一些记号,区别于实数值,记$\bar{\mathbb{R}}=\mathbb{R}\cup \{\pm\infty\}$.设$f:\mathbb{R}^n\rightarrow \bar{\mathbb{R}}$.则$f$的有效域(effective domain)记为
$$\text{dom}(f):=\{x\in\mathbb{R}^n:f(x)<+\infty\}.$$
而$f$的上图(epigraph)记为
$$\text{epi}(f):=\{(x,\gamma)\in\mathbb{R}^n\times\mathbb{R}:f(x)\leq \gamma\}.$$

\begin{definition}\label{def5:1}
    设$f:\mathbb{R}^n\rightarrow\bar{\mathbb{R}}$.若$\text{epi}(f)\subset \mathbb{R}^n\times\mathbb{R}$为凸集,则称$f$为凸函数.若$-f$为凸的,则称$f$为凹函数.
\end{definition}

上述定义推广了第\ref{chap:1}章中一维凸函数的定义.事实上,我们有如下凸函数的等价条件.

\begin{theorem}\label{thm5:1}
    设$f:\mathbb{R}^n\rightarrow\mathbb{R}\cup\{+\infty\}$且$\text{dom}(f)\neq \emptyset$.则$f$为凸的当且仅当对任意$x,y\in\mathbb{R}^n$, $0<\alpha<1$,均有
    \begin{equation}\label{eq5:1}
        f(\alpha x+(1-\alpha)y)\leq \alpha f(x)+(1-\alpha)f(y).
    \end{equation}
\end{theorem}

\begin{proof}
    设$f$凸,则$\text{epi}(f)$为凸集.任取$x,y\in\mathbb{R}^n$.若其中之一不属于$\text{dom}(f)$则(\ref{eq5:1})显然成立.故不妨设$x,y\in\text{dom}(f)$.于是$\left[\begin{array}{cc}x\\f(x)\end{array}\right]$与$\left[\begin{array}{cc}y\\f(y)\end{array}\right]$均属于$\text{epi}(f)$,从而其凸组合亦属于$\text{epi}(f)$.也即
    \begin{equation}\label{eq5:2}
        \left[\begin{array}{cc}\alpha x+(1-\alpha)y\\\alpha f(x)+(1-\alpha)f(y)\end{array}\right]\in\text{epi}(f).
    \end{equation}
    因而$f(\alpha x+(1-\alpha)y)\leq \alpha f(x)+(1-\alpha)f(y)$.\\
    反之,上式蕴含了(\ref{eq5:2})式.从而$\text{epi}(f)$为凸集,故$f$为凸函数.证毕.
\end{proof}
\begin{remark}
    \begin{itemize}
        \item[(i)] 若(\ref{eq5:1})式为严格不等式,则称$f$为严格凸函数.
        \item[(ii)] 限制在凸集上的凸函数可拓展成全空间中的凸函数.
        \item[(iii)] 若$f$为凸,则$\text{dom}(f)$必为凸集.
    \end{itemize}
\end{remark}

\begin{definition}\label{def5:2}
    设$\Omega\subset\mathbb{R}^n$为凸集, $f:\Omega\rightarrow (-\infty,+\infty]$.若对任意的$x,y\in\Omega$及$\alpha\in(0,1)$均有(\ref{eq5:1})式成立.则称$f$为$\Omega$上的凸函数.
\end{definition}

对\cref{def5:2}中的$f$进行延拓,定义$\tilde{f}:\mathbb{R}^n\rightarrow (-\infty,+\infty]$为
$$\tilde{f}(x):=\left\{\begin{array}{cc}
        f(x),    & x\in\Omega;    \\
        +\infty, & x\notin\Omega.
    \end{array}\right.$$
则不难验证:
\begin{equation*}
    \begin{aligned}
        \text{dom}(\tilde{f}) & =\text{dom}(f)  \\
        \text{epi}(\tilde{f}) & =\text{epi}(f).
    \end{aligned}
\end{equation*}
由此并结合\cref{thm5:1}可知, $f$的凸性等同于$\tilde{f}$的凸性.

\begin{example}{典型凸函数}\label{exa5:1}
    \begin{itemize}
        \item[(i)] 仿射函数: $f(x)=a^Tx+b$,其中$a\in\mathbb{R}^n$, $b\in\mathbb{R}$.
        \item[(ii)] 范数函数: $f(x)=\| x\|$,其中$\| \cdot \|$为$\mathbb{R}^n$上的范数.
        \item[(iii)] 示性函数: $\delta_\Omega(x)=\left\{\begin{array}{cc}0,&x\in\Omega\\+\infty,&x\notin\Omega\end{array}\right.$,其中$\Omega\subset\mathbb{R}^n$为凸集.
        \item[(iv)] 距离函数: $d_\Omega(x)=\min\limits_{z\in\Omega}\| x-z\|$,其中$\Omega\subset\mathbb{R}^n$为闭凸集.
    \end{itemize}
\end{example}

\begin{proof}
    应用(\ref{eq5:1})式进行验证(ii)与(iv).由范数的三角不等式及齐次性,
    \begin{equation*}
        \begin{aligned}
            f(\alpha x+(1-\alpha)y) & =\| \alpha x+(1-\alpha)y\|           \\
                                    & \leq \| \alpha x \|+\| (1-\alpha)y\| \\
                                    & =\alpha \| x\|+(1-\alpha)\| y\|      \\
                                    & =\alpha f(x)+(1-\alpha)f(y).
        \end{aligned}
    \end{equation*}
    可知(ii)成立.下证(iv).设$x,y\in\mathbb{R}^n$, $\alpha\in(0,1)$.记$v=\Pi_\Omega(x)$, $W=\Pi_\Omega(y)$.则由$\Omega$的凸性
    $$\alpha v+(1-\alpha)w\in\Omega$$
    且$d_\Omega(x)=\| x-v\|$, $d_\Omega(y)=\| y-w\|$.
    据此,
    \begin{equation*}
        \begin{aligned}
            d_\Omega(\alpha x+(1-\alpha)y) & =\min_{z\in\Omega}\|\alpha x+(1-\alpha)y-z\|       \\
                                           & \leq \|\alpha x+(1-\alpha)y-\alpha v-(1-\alpha)w\| \\
                                           & \leq \alpha\| x-v\|+(1-\alpha)\| y-w\|             \\
                                           & =\alpha d_\Omega(x)+(1-\alpha)d_\Omega(y).
        \end{aligned}
    \end{equation*}
    从而(iv)成立.\\
    最后, (i)易证. (iii)成立是因为$\text{epi}(\delta_\Omega)=\Omega\times\mathbb{R}_+$为凸集.
\end{proof}
~\par
为对光滑凸函数进行导数刻画,先引入梯度和海森(Hessian)矩阵的概念,它们分别是单变量函数的一阶和二阶导数.\par
设$f:\mathbb{R}^n\rightarrow\mathbb{R}$.则$f$在$x$处的梯度记为
$$\nabla f(x):=\left[\begin{array}{cc}
            \frac{\partial f(x)}{\partial x_1} \\ \vdots \\ \frac{\partial f(x)}{\partial x_n}\end{array} \right], $$
其中$x_i$为$x$的第$i$个坐标.若$f$二阶连续可微,则$f$的海森矩阵定义为
$$\nabla^2 f(x):=\left[\begin{array}{cccc}
            \frac{\partial^2 f(x)}{\partial x_1^2}            & \frac{\partial^2 f(x)}{\partial x_1 \partial x_2} & \cdots & \frac{\partial^2 f(x)}{\partial x_1 \partial x_n} \\
            \frac{\partial^2 f(x)}{\partial x_2 \partial x_1} & \frac{\partial^2 f(x)}{\partial x_2^2}            & \cdots & \frac{\partial^2 f(x)}{\partial x_2 \partial x_n} \\
            \vdots                                            & \vdots                                            & \ddots & \vdots                                            \\
            \frac{\partial^2 f(x)}{\partial x_n \partial x_1} & \frac{\partial^2 f(x)}{\partial x_n \partial x_2} & \cdots & \frac{\partial^2 f(x)}{ \partial x_n^2}           \\
        \end{array} \right].$$

\begin{theorem}\label{thm5:2}
    设$f:\Omega\rightarrow\mathbb{R}$为连续可微的函数,其中$\Omega\subset\mathbb{R}^n$.则$f$为凸函数当且仅当如下条件之一成立:
    \begin{itemize}
        \item[(i)] 当任意$x,y\in\mathbb{R}^n$均有
            \begin{equation}\label{eq5:3}
                \langle x-y,\nabla f(x)-\nabla f(y)\rangle\geq 0;
            \end{equation}
        \item[(ii)] 当任意$x,y\in\mathbb{R}^n$均有
            \begin{equation}\label{eq5:4}
                f(y)\geq f(x)+\langle \nabla f(x),y-x\rangle;
            \end{equation}
        \item[(iii)] 若$f$二阶连续可微时,
            \begin{equation}\label{eq5:5}
                \nabla^2 f(x)\succeq  0,\forall x\in\Omega.
            \end{equation}
    \end{itemize}
\end{theorem}

\begin{proof}
    首先说明$f$的凸性不等式(\ref{eq5:1})等价于$f$限制在$x$与$y$连线上的凸性.\\
    为此,令$g(t)=f(x+t(y-x))$.则(\ref{eq5:1})$\Rightarrow g(t)$的凸性.事实上, $g$凸等价于$\forall\alpha\in(0,1)$及$t_1,t_2\in\Omega$均有
    \begin{equation}\label{eq5:6}
        g(\alpha t_1+(1-\alpha)t_2)\leq \alpha g(t_1)+(1-\alpha)g(t_2).
    \end{equation}
    也即, $$f(\alpha[x+t_1(y-x)]+(1-\alpha)[x+t_2(y-x)])\\
        \leq \alpha f(x+t_1(y-x))+(1-\alpha)f(x+t_2(y-x)).$$
    分别取$t_1=0$与$t_2=1$.则可推出(\ref{eq5:1})式,而(\ref{eq5:1})式可直接推出上式.\\
    为应用一维凸函数的导数特征.先求$g(t)$的导数
    \begin{equation*}
        \begin{aligned}
            g'(t)  & =\langle y-x,\nabla f(x+t(y-x))\rangle,        \\
            g''(t) & =\langle y-x,\nabla^2 f(x+t(y-x))(y-x)\rangle.
        \end{aligned}
    \end{equation*}
    下证(i)与$f$凸的等价性.\\
    若$f$凸则$g$凸,从而$g'(t)$单调递增.$\Rightarrow g'(0)\leq g'(1)\Rightarrow $ (\ref{eq5:3})式.\\
    反之,若(\ref{eq5:3})式成立.则$\forall u,v\in\Omega$均有
    $$\langle u-v,\nabla f(u)-\nabla f(v)\rangle\geq 0.$$
    令$u=x+t_1(y-x)$, $v=x+t_2(y-x)$.则可得
    $$(t_1-t_2)(g'(t_1)-g'(t_2))\geq 0.$$
    故$t_1\leq t_2$时, $g'(t_1)\leq g'(t_2)$.因而$g$为凸的进而$f$凸.\\
    接下来验证(\ref{eq5:3})与(\ref{eq5:4})的等价性.\\
    先设(\ref{eq5:3})成立则$g(t)$凸.从而由第\ref{chap:1}章\cref{thm1:1}知$g'(1)\geq g(0)+g'(0)$即得(\ref{eq5:4})式.\\
    反之,若(\ref{eq5:4})成立.则
    \begin{equation*}
        \begin{aligned}
            f(y) & \geq f(x)+\nabla f(x)(y-x), \\
            f(x) & \geq f(y)+\nabla f(y)(x-y).
        \end{aligned}
    \end{equation*}
    两式相加可得(\ref{eq5:3})式.\\最后验证条件(\ref{eq5:5}).\\
    若$f$凸则$g$凸,从而$g''(0)\geq 0$.也即
    $$\langle y-x,\nabla^2 f(x)(y-x)\rangle \geq 0,\forall y\in\Omega.$$
    故$\nabla^2 f(x)\geq 0,\forall x\in\Omega$.也即(\ref{eq5:5})式成立.\\
    反之,设(\ref{eq5:5})式成立.则有$\langle z,\nabla^2 f(w)z\rangle\geq 0$, $\forall z,w\in\Omega$.令$w=x+t(y-x)$, $z=y-x$.即可得出$g''(t)\geq 0,\forall t\in\mathbb{R}$.故$g$凸进而$f$凸.证毕.
\end{proof}

\begin{example}\label{exa5:2}
    记$\mathbb{R}\times\mathbb{R}_{++}:=\{(x_1,x_2)\in\mathbb{R}^2:x_2>0\}$.令
    $$f(x_1,x_2)=\frac{1}{2}\frac{x_1^2}{x_2}.$$
    则$f$为$\mathbb{R}\times\mathbb{R}_{++}$上的凸函数.
\end{example}

\begin{proof}
    计算$f$的Hessian矩阵为
    $$\nabla^2f(x_1,x_2)=\left(\begin{array}{cc}
                \frac{1}{x_2}      & -\frac{x_1}{x_2^2}  \\
                -\frac{x_1}{x_2^2} & \frac{x_1^2}{x_2^3}
            \end{array}\right)$$
    注意到,当$(x_1,x_2)\in\mathbb{R}\times\mathbb{R}_{++}$时,
    $$\text{Tr}[\nabla^2f(x_1,x_2)]=[\frac{1}{x_2}+\frac{x_1^2}{x_2^3}]>0,$$
    $$\text{det}[\nabla^2f(x_1,x_2)]=\frac{1}{x_2}\cdot\frac{x_1^2}{x_2^3}-\left(\frac{x_1}{x_2^2}\right)^2=0.$$
    可知Hessian矩阵的两个特征根$\lambda_1,\lambda_2$满足
    $$\lambda_1+\lambda_2>0,$$
    $$\lambda_1\lambda_2=0.$$
    从而$\lambda_1,\lambda_2\geq 0$.也即$\nabla^2f(x_1,x_2)\geq 0$, $(x_1,x_2)\in\mathbb{R}\times\mathbb{R}_{++}$.因此$f$为凸函数.
\end{proof}

\section{保凸运算}\label{sec5:2}
\subsection{保凸的代数运算}

\begin{theorem}\label{thm5:3}
    \begin{itemize}
        \item[(i)] 设$f:\mathbb{R}^n\rightarrow \mathbb{R}\cup \{+\infty\}$为凸函数, $A:\mathbb{R}^m\rightarrow\mathbb{R}^n$的线性变换, $b\in \mathbb{R}^n$.则
            $$g(x)=f(Ax+b)\text{为凸函数}.$$
        \item[(ii)] 设$f_1,f_2,\cdots,f_m:\mathbb{R}^n\rightarrow\mathbb{R}\cup\{+\infty\}$为凸函数, $\alpha_1,\alpha_2,\cdots,\alpha_m\in\mathbb{R}_+$.则
            $$g=\sum\limits^m_{i=1}\alpha_i f_i\text{为凸函数}.$$
    \end{itemize}
\end{theorem}

\begin{example}\label{exa5:3}
    下述函数均为凸函数:
    \begin{itemize}
        \item[(i)] $f(x)=\| Ax+b\|_\diamond$,其中$A\in\mathbb{R}^{m\times n}$, $b\in\mathbb{R}^m$, $\| \cdot\|_\diamond$为范数.
        \item[(ii)] $f(x)=\| Ax+b\|^2$, $\| \cdot \|$为欧氏范数.
    \end{itemize}
\end{example}

\begin{proof}
    \begin{itemize}
        \item[(i)] $h(y)=\| y\|_\diamond$为凸,从而
            $$f(x)=h(Ax+b)\text{为凸}.$$
        \item[(ii)] 令$h(y)=\| y\|^2$.则$\nabla^2h=I>0$,从而$h$凸.故
            $$f(x)=h(Ax+b)\text{亦为凸}.$$
    \end{itemize}
\end{proof}

\begin{theorem}\label{thm5:4}
    设$\phi:\mathbb{R}\rightarrow(-\infty,+\infty]$为单调递增的凸函数且约定$\phi(+\infty)=+\infty$. $\psi:\mathbb{R}^n\rightarrow(-\infty,+\infty]$为凸函数,则复合函数$f=\phi\circ\psi$为凸函数.
\end{theorem}

\begin{proof}
    由$\psi$的凸性知,对$\forall x,y\in\mathbb{R}^n$, $\alpha\in(0,1)$均有
    $$\psi\left((1-\alpha)x+\alpha y\right)\leq (1-\alpha)\psi(x)+\alpha\psi(y).$$
    再结合$\phi$的单调性及凸性可得
    \begin{equation*}
        \begin{aligned}
            \phi\left(\psi\left((1-\alpha)x+\alpha y\right)\right) & \leq \phi\left((1-\alpha)\psi(x)+\alpha \psi(y)\right)                   \\
                                                                   & \leq (1-\alpha)\phi\left(\psi(x)\right)+\alpha \phi\left(\psi(y)\right).
        \end{aligned}
    \end{equation*}
    故$f=\phi\circ\psi$为凸函数.
\end{proof}

\begin{example}\label{exa5:4}
    设$\psi:\mathbb{R}\rightarrow\mathbb{R}$为连续增函数且$\psi(0)\geq 0$.令$f:\mathbb{R}^n\rightarrow\mathbb{R}$定义为
    $$f(x)=\int^{\| x\|_0}_0\psi(t)dt.$$
    则$f$为凸函数.据此证明$g(x)=\| x^T\|^p_\diamond $为凸函数,其中$p\geq 1$, $\| \cdot\|_\diamond$为范数.
\end{example}

\begin{proof}
    令$\phi(s):\mathbb{R}\rightarrow\mathbb{R}$定义为
    $$\phi(s)=\int^s_0\psi(t)dt.$$
    则$\phi'(s)=\psi(s)$为单调增函数,可知$\phi(s)$为凸函数且为增函数.又$\|\cdot\|_\diamond$为凸函数,且
    $$f(x)=\phi(\| x\|_\diamond)=\phi\circ\|\cdot\|_\diamond.$$
    因此$f$为凸函数.\\
    下证$g$的凸性,取
    \begin{equation*}
        \psi(t):=\left\{\begin{array}{cc}
            pt^{p-1}, & t>0;     \\
            0,        & t\leq 0.
        \end{array}\right.
    \end{equation*}
    则$\phi(s)=s^p$, $s\geq 0$且$\phi(s)=0$, $s<0$.于是可知$g(x)=\| x\|^p_\diamond=\phi(\| x\|_\diamond)$为凸函数.
\end{proof}

\subsection{保凸的几何运算}
基于凸函数上图epi的凸性.可进行一系列保凸运算.

\begin{theorem}\label{thm5:5}
    设$f_i:\mathbb{R}^n\rightarrow \mathbb{R}\cup\{+\infty\}, i\in I$为凸函数, $V$为$\mathbb{R}^{n+1}$中的凸集.则可构造如下凸函数:
    \begin{itemize}
        \item[(i)] $f(x)=\sup\limits_{i\in I}f_i(x)$;
        \item[(ii)] $f(x)=\inf\{\mu:(x,\mu)\in V\}$.
        \item[(iii)] $f(x)=\inf\{f_1(x_1)+\cdots+f_m(x_m):x=x_1+\cdots+x_m\}$.
    \end{itemize}
\end{theorem}

\begin{proof}
    \begin{itemize}
        \item[(i)] 由$\text{epi} (f)=\bigcap\limits_{i\in I}\text{epi}(f_i)$可知$f$凸.
        \item[(ii)] 显然$\text{epi}(f)=V$.
        \item[(iii)] 令$\Omega:=\text{epi}(f_1)+\text{epi}(f_2)+\cdots+\text{epi}(f_m)$.可知$\Omega$为凸集$(\mathbb{R}^{n+1})$.则$(x,\mu)\in\Omega$,当且仅当$x_i\in \text{dom}(f_i)$,以及$\mu_i\in\mathbb{R}$, $i=1,\cdots,m$使得$f_i(x_i)\leq \mu_i$,使$x=x_1+\cdots+x_m$, $\mu=\mu_1+\cdots+\mu_m.$\\
            于是$f(x)=\inf\{f_1(x_1)+\cdots+f_m(x_m):x=x_1+\cdots+x_m\}=\inf\{\mu:(x,\mu)\in\Omega\}$为凸的.
    \end{itemize}
\end{proof}
~\par
基于\cref{thm5:5},我们介绍几类重要的凸函数.

\begin{example}\label{exa5:5}
    设$h$为凸函数.则可构造如下重要凸函数.
    \begin{itemize}
        \item[(i)] 共轭函数: $h^*(x)=\sup\limits_y\{\langle x,y\rangle-h(y)\}$;
        \item[(ii)] 信封函数: $f(x)=\inf\limits_y\{h(y)+\frac{1}{2}\| x-y\|^2\}$(用$g(x-y)$代替$\frac{1}{2}\| x-y\|^2$,改为一般卷积形式);
        \item[(iii)] 部分极小化函数: $$f(x_1,\cdots,x_m)=\inf\limits_{x_{m+1},\cdots,x_n}h(x_1,\cdots,x_m,x_{m+1},\cdots,x_n).$$此处$x_i$为$x$的第$i$个分量.
    \end{itemize}
\end{example}

\begin{proof}
    \begin{itemize}
        \item[(i)] $h^*(x)=\sup\limits_yf_y(x)$,其中$f_y(x)=\langle x,y\rangle-h(y)$为线性的,从而为凸函数.因此$h^*$为凸的.
        \item[(ii)] 在\cref{thm5:5}中.取$f_1=h$, $f_2=\frac{1}{2}\| \cdot \|^2$, $x_1=y$, $x_2=x-y$.即可!
        \item[(iii)] 可证更一般的结论: $$f(y)=\text{inf}\{h(x):Ax=y\}\text{为凸的}.$$
            这是因为
            $$f(y)=\text{inf}\{\mu:(y,\mu)\in\left(\begin{array}{cc}A& \\ & I\end{array}\right)\cdot \text{epi}(h)\}.$$
            $\left(\begin{array}{cc}A& \\ & I\end{array}\right)\cdot \text{epi}(h)$为凸集.故\cref{thm5:5}的(ii)表明$f$为凸的.特别地取$Ax=y$为$$A:(x_1,\cdots,x_m,x_{m+1},\cdots,x_n)\rightarrow(x_1,\cdots,x_m).$$可知$f(x_1,\cdots,x_m)$为凸函数.证毕.
    \end{itemize}
\end{proof}

\begin{remark}
    距离函数$d_\Omega(x)=\inf\limits_{y\in\Omega}\| x-y\|$为凸的. $\Omega$仅需凸.事实上, $d_\Omega(x)=\inf\limits_y\{\delta_\Omega(y)+\| x-y\|\}$为凸.
\end{remark}

\section{基本性质}\label{sec5:3}
在一维凸函数的基本性质部分,我们重点讨论了其左右导数性质和连续性.在本节中,我们尝试推广这两类性质.为此,引入下述一维变量的函数$$g(t)=f(x+td),t\in\mathbb{R}.$$其中$x,d\in\mathbb{R}^n$先固定.在\cref{thm5:2}的证明中,已指出$f$的凸性蕴含了$g$的凸性.因此,可利用一维凸函数$g$的性质来分析$f$的相应性质.

\begin{definition}\label{def5:3}
    设$f:\mathbb{R}^n\rightarrow\bar{\mathbb{R}}$为凸函数, $x\in\text{dom}f$.则称$$f'(x;d)=\lim\limits_{\tau\rightarrow 0_+}\frac{f(x+\tau d)-f(x)}{\tau}, d\in\mathbb{R}^n.$$
    为$f$在$x$处沿方向$d$的方向导数.
\end{definition}

\begin{theorem}\label{thm5:6}
    对任意$x\in\text{dom}(f)$与$d\in\mathbb{R}^n$, $f'(x;d)$存在(可能取无穷).若$x\in\text{int dom}(f)$,则$f'(x;d)\in\mathbb{R},\forall d\in\mathbb{R}^n.$
\end{theorem}

\begin{proof}
    先考虑$x\in\text{int dom}(f)$的情形.易知$0\in\text{int dom}(g)$.从而第\ref{chap:1}章的\cref{prop2:1}知$D_+g(0)\in\mathbb{R}$.再据
    $$D_+g(0)=\lim\limits_{\tau \rightarrow 0_+}\frac{g(\tau)-g(0)}{\tau},\forall d\in\mathbb{R}^n.$$
    可知$f'(x;d)\in\mathbb{R},\forall d\in\mathbb{R}^n.$\\
    现考虑$x\in\text{dom}(f)$的情形.不妨设存在$\tau_0>0$, s.t. $f(x+\tau_0 d)<+\infty$.否则易知$f'(x;d)=+\infty$.则有当$\tau \in(0,\tau_0]$时$g(\tau)<+\infty$.事实上,由$g(0)=f(x)<\infty$及$g$的凸性
    \begin{equation*}
        \begin{aligned}
            g(\tau) & \leq g(\frac{\tau}{\tau_0}\tau_0+(1-\frac{\tau}{\tau_0})\cdot 0) \\
                    & \leq \frac{\tau}{\tau_0}g(\tau_0)+(1-\frac{\tau}{\tau_0})g(0)    \\
                    & < +\infty.
        \end{aligned}
    \end{equation*}
    由于$\frac{g(\tau)-g(0)}{\tau}=s_0(\tau)$在$(0,\tau_0]$上单调增.故当$\tau\rightarrow 0_+$时,要么$\lim\limits_{\tau\rightarrow 0_+}s_0(\tau)=-\infty$,要么$\lim\limits_{\tau\rightarrow 0_+}s_0(\tau)\in\mathbb{R}$.因此$f'(x;d)$总存在.证毕.
\end{proof}

\begin{theorem}\label{thm5:7}
    设$f:\mathbb{R}^n\rightarrow\bar{\mathbb{R}}$为凸函数.则对任意$x\in\text{int dom}(f)$存在$\delta >0$及常数$L$使得当$y_i$满足$\| y-x\|\leq \delta $时,
    $$\| f(y)-f(x)\|\leq L\| y-x\|.$$
\end{theorem}

\begin{proof}
    为区分几个正交基底方向$\pm e_1,\pm e_2,\cdots,\pm e_n$,设
    $D=\{d_1,\cdots,d_{2n}\}=\{\pm e_1,\pm e_2,\cdots,\pm e_n\}.$\\并记$g_i(t)=f(x+td_i)$, $i=1,\cdots,2n$.\\
    由$x\in\text{int dom}(f)$可知$0\in\text{int dom}(g_i)$, $i=1,\cdots,2n$.于是由一维凸函数的Lipschitz连续性知存在$\delta>0$及使得当$|t|\leq \delta$时
    $$|g_i(t)-g(0)|<L\cdot\delta,i=[2n].$$
    令$B_\infty=\{y\in\mathbb{R}^n:\| y-x\|_\infty\leq \delta\}$, $y\in B_\infty$.据Minkowski定理知, $y$可由$B_\infty$的极点集$\delta D+\{x\}$进行凸组合.于是存在$\lambda\in\Delta_{2n}$, s.t. $$y=\sum\limits^{2n}_{i=1}\lambda_i(\delta d_i+x).$$
    据$f$的凸性,有
    $$f(y)-f(x)\leq \sum\limits^{2n}_{i=1}\lambda_i(f(x+\delta d_i)-f(x)).$$
    由于, $f(x+\delta d_i)-f(x)=g_i(\delta)-g_i(0)<L\delta$.\\
    因此, $f(y)-f(x)\leq \sum\limits^{2n}_{i=1}\lambda_i\cdot L\delta=L\delta$.\\
    可知, $f(y)\leq f(x)+L\delta\triangleq M$, $\forall y\in B_\infty$.也即在$B_\infty$上, $f(y)$有界.设$y_i$满足$\| y-x\|\leq \delta$且$y\neq x$.\\
    定义
    $$z=x+\frac{1}{\alpha}(y-x).$$
    其中$\alpha=\frac{1}{\delta}\| y-x\|$.则$\alpha\leq 1$且$z$满足$\| z-x\|_\infty\leq \delta \leq \| z-x\| \leq \delta$.因而$f(z)\leq M$且
    $$y=\alpha(z-x)+x=\alpha z+(1-\alpha)x.$$
    于是,\begin{equation*}
        \begin{aligned}
            f(y) & \leq \alpha f(\delta)+(1-\alpha)f(x) \\
                 & \leq f(x)+\alpha(M-f(x))             \\
                 & = f(x)+\alpha\cdot L\delta           \\
                 & = f(x)+L\cdot \| y-x\|.
        \end{aligned}
    \end{equation*}
    也即, $f(y)-f(x)\leq L\cdot \| y-x\|.$\\
    由对称性,取$\bar{y}$使得
    $$x=\frac{y+\bar{y}}{2}\text{且}\| \bar{y}-x\|=\| y-x\|\leq \delta.$$
    此时$f(x)\leq \frac{1}{2}f(y)+\frac{1}{2}f(\bar{y})$.\\
    从而$f(x)-f(y)\leq f(\bar{y})-f(x)\leq L\cdot \| \bar{y}-x\|=L\cdot \| y-x\|.$\\
    故$|f(x)-f(y)|\leq L\cdot \| y-x\|$, $\forall \| y-x\|\leq \delta.$
\end{proof}


\begin{problemset}
    \item $f$的严格凸性等价于下述条件之一:
    \begin{itemize}
        \item[(i')] $\langle x-y,\nabla f(x)-\nabla f(y)\rangle >0, \text{if } x\neq y.$
            \item[(ii')]$f(y)>f(x)+\langle \nabla f(x), y-x\rangle, \text{if } x\neq y.$
    \end{itemize}
    \item 设$f:\mathbb{R}^n\rightarrow\mathbb{R}$及$-f$均为凸函数.证明: $f$必为仿射函数,也即存在$a\in\mathbb{R}^n$, $b\in\mathbb{R}^n$使得
    $$f(x)=a^Tx+b.$$
    \item 设$f$为凸函数且存在$\beta_0\in\mathbb{R}$使得$M_{\beta_0}:=\{x:f(x)<\beta_0\}\neq \emptyset$且有界.证明:对$\forall \beta\in\mathbb{R}$, $M_{\beta}$均为有界集.
    \item 对$x\in\mathbb{R}^n$,用$x_{[i]}$表示$x$中第$i$大的分量:
    $$x_{[1]}\geq x_{[2]}\geq\cdots\geq x_{[n]}.$$
    证明:对任意的$1\leq k\leq n$,函数
    $$f_k(x)=\sum\limits^k_{j=1}x_{[j]}$$
    为凸函数.
    \item 证明$f(x)=\ln (\sum\limits^n_{i=1}e^{x_i})$为凸但非严格凸的函数.进一步地,设$A\in\mathbb{R}^{m\times n}$其第$i$行记为$A_i$.证明: $f(x)=\ln (\sum\limits^m_{i=1}e^{A_ix})$为凸函数.
    \item 设$f:\mathbb{R}^n\rightarrow\mathbb{R}$为凸函数, $x_2\in\text{conv}\{x_1,x_3\}$且$x_1,x_2,x_3$彼此不等.证明:
    $$\frac{f(x_3)-f(x_2)}{\| x_3-x_2\|}\geq \frac{f(x_2)-f(x_1)}{\| x_2-x_1\|}.$$
    \item 给定函数$f:\mathbb{R}^n\rightarrow\mathbb{R}$.其透视函数$g:\mathbb{R}^n\times\mathbb{R}_{++}\rightarrow\mathbb{R}$定义为
    $$g(x,t)=tf(\frac{x}{t}).$$
    证明:若$f$为凸函数,则$g$也为凸函数.
    \item 设$f_0,f_1,\cdots,f_m$均为$\mathbb{R}^n$上的凸函数.令
    $$F(b):=\min_x\{f_0(x):f_i(x)\leq b_i,i=1,\cdots,m\}.$$
    假设对$\forall b\in\mathbb{R}^m$,上述最优化问题均有最优解.证明: $F(b)$为$\mathbb{R}^m$上的凸函数.
\end{problemset}

\chapter{次微分}\label{chap:6}
凸函数在内部点处连续但不一定可微.但在固定的方向上,其方向导数存在.我们将根据这一观察建立凸函数的次微分理论.

\section{方向导数的性质}\label{sec6:1}

\begin{lemma}\label{lem6:1}
    设$f:\mathbb{R}^n\rightarrow\mathbb{R}\cup\{+\infty\}$为凸函数且$\text{dom}(f)\neq\emptyset$.令$x\in\text{int dom}(f)$.则
    \begin{itemize}
        \item[(i)] $h(d):=f'(x;d)$为凸函数;
        \item[(ii)] $h(d)$为次线性函数,也即对$\forall (d_1,d_2)\in\mathbb{R}^n\times\mathbb{R}^n$, $t_1,t_2\geq 0$均有
            \begin{equation}\label{eq6:1}
                h(t_1d_1+t_2d_2)\leq t_1h(d_1)+t_2h(d_2)
            \end{equation}
        \item[(iii)] $h(\lambda d)=\lambda h(d)$, $\lambda\geq 0$.
    \end{itemize}
\end{lemma}

\begin{proof}
    显然(ii)$\Rightarrow$ (i).下面反证明(ii).由$f$的凸性及$h$的定义,
    \begin{equation*}
        \begin{aligned}
            h(t_1d_1+t_2d_2) & =\lim\limits_{\tau\rightarrow 0_+}\frac{f(x+\tau t_1d_1+\tau t_2d_2)-f(x)}{\tau}                                          \\
                             & =\lim\limits_{\tau\rightarrow 0_+}(t_1+t_2)\frac{f(x+\tau \frac{t_1}{t_1+t_2}d_1+\tau \frac{t_2}{t_1+t_2}d_2)-f(x)}{\tau} \\
                             & \leq \lim\limits_{\tau\rightarrow 0_+}\frac{t_1f(x+\tau d_1)+t_2f(x+\tau d_2)-(t_1+t_2)f(x)}{\tau}                        \\
                             & =t_1h(d_1)+t_2h(d_2).
        \end{aligned}
    \end{equation*}
    即证.
\end{proof}
~\par
相较线性函数而言,次线性(\ref{eq6:1})对参数$t_i$有非负的限制.从而线性函数必然为次线性的,也即后者更广泛.下述结果基于方向导数提供了凸函数的一类次线性近似.

\begin{theorem}\label{thm6:1}
    设$f:\mathbb{R}^n\rightarrow\mathbb{R}\cup\{+\infty\}$为凸函数且$\text{dom}(f)\neq \emptyset$.令$x\in\text{int dom}(f)$.则有
    \begin{equation}\label{eq6:2}
        f(y)\geq f(x)+f'(x;y-x),\forall y\in\text{dom}(f).
    \end{equation}
\end{theorem}

\begin{proof}
    由定义,
    \begin{equation*}
        \begin{aligned}
            f'(x;y-x) & =\lim\limits_{\tau\rightarrow 0_+}\frac{f(x+\tau(y-x))-f(x)}{\tau}             \\
                      & =\lim\limits_{\tau\rightarrow 0_+}\frac{f((1-\tau)x+\tau y)-f(x)}{\tau}        \\
                      & \leq \lim\limits_{\tau\rightarrow 0_+}\frac{(1-\tau)f(x)+\tau f(y)-f(x)}{\tau} \\
                      & =f(y)-f(x).
        \end{aligned}
    \end{equation*}
    即证.
\end{proof}

\section{次梯度}\label{sec6:2}

\begin{definition}\label{def6:1}
    设$f:\mathbb{R}^n\rightarrow\mathbb{R}\cup\{+\infty\}$为凸函数且$\text{dom}(f)\neq \emptyset$.令$x\in\text{dom}(f)$.若向量$g\in\mathbb{R}^n$满足
    \begin{equation}\label{eq6:3}
        f(y)\geq f(x)+\langle g,y-x\rangle,\forall y\in\mathbb{R}^n.
    \end{equation}
    则称$g$为$f$在$x$处的次梯度. $f$在$x$处的全体次梯度构成的集合称为$f$在$x$处的次微分,记为$\partial f(x)$.
\end{definition}

次梯度不等式(\ref{eq6:3})与(\ref{eq6:2})相比,仅用线性函数$\langle g,y-x\rangle$替换掉了次线性函数$f'(x;y-x)$.但两者本质上是等价的.
\par 下例指出,并非任意凸函数在其有效域$\text{dom}(f)$中总可微.

\begin{example}\label{exa6:1}
    定义$f:\mathbb{R}\rightarrow(-\infty,+\infty]$为
    $$f(x)=\left\{\begin{array}{cc}
            -\sqrt{x},   & x\geq 0,       \\
            \infty     , & \text{others}.
        \end{array} \right.$$
    往证$f$在$x=0$处的次梯度不存在.反设存在$g\in\partial f(0)$.则
    $$f(y)\geq f(0)+g(y-0),\forall y>0.$$
    也即$-\sqrt{y}\geq gy,\forall y>0$.\\
    从而$g\sqrt{y}\leq -1,\forall y>0$.令$y\rightarrow 0_+$可得$0\leq -1$.矛盾!\\
    从而$\partial f(0)=\emptyset$.\\
    尽管如此,当限定到$f$有效域的内点时,次梯度总存在.也即有关系式:
    $$\text{int dom}(f)\subseteq \text{dom}(\partial f).$$
    特别地,对于实值凸函数.由于$\text{dom}(f)=\mathbb{R}^n$.因而
    $$\text{dom}(\partial f)=\mathbb{R}^n.$$
    可见,实值凸函数处处次可微.
\end{example}

\begin{theorem}\label{thm6:2}
    设$f:\mathbb{R}^n\rightarrow\mathbb{R}\cup\{+\infty\}$为凸函数且$\text{dom}(f)\neq \emptyset$.则对任意$x\in\text{int dom}(f)$及$d\in\mathbb{R}^n$均有
    \begin{equation*}
        f'(x;d)=\max\{\langle g,d\rangle:g\in\partial f(x) \}.
    \end{equation*}
    \begin{remark}
        条件$x\in\text{int dom}(f)$可弱化为$x\in\text{dom}(f)$.
    \end{remark}
\end{theorem}

\begin{proof}
    由次梯度不等式可知,对$\forall g\in\partial f(x)$均有
    \begin{equation*}
        \begin{aligned}
            f'(x;d) & =\lim\limits_{\tau\rightarrow 0_+}\frac{f(x+\tau d)-f(x)}{\tau} \\
                    & \geq \lim\limits_{\tau\rightarrow 0_+}\langle g,d\rangle        \\
                    & =\langle g,d\rangle.
        \end{aligned}
    \end{equation*}
    故
    \begin{equation*}
        f'(x;d)\geq \max\{\langle g,d\rangle:g\in\partial f(x)\}.
    \end{equation*}
    反之,令$h(w)=f'(x;w)$.则$h:\mathbb{R}^n\rightarrow\mathbb{R}$为凸函数(第\ref{chap:5}章的\cref{thm5:6}保证$h$取完值).取$\tilde{g}\in\partial h(d)$.设$\lambda\geq 0$.则$h(w)$的齐次性及次梯度不等式, $\forall v\in\mathbb{R}^n$均有
    \begin{equation*}
        \begin{aligned}
            \lambda f'(x;v) & =f'(x;\lambda v)=h(\lambda v)                  \\
                            & \geq h(d)+\langle \tilde{g},\lambda v-d\rangle \\
                            & =f'(x;d)+\langle \tilde{g},\lambda v-d\rangle.
        \end{aligned}
    \end{equation*}
    \begin{equation}\label{eq6:4}
        \Rightarrow \lambda(f'(x;v)-\langle \tilde{g},v\rangle)\geq f'(x;d)-\langle \tilde{g},d\rangle.
    \end{equation}
    从而$f'(x;v)\geq \langle \tilde{g},v\rangle$,否则可令$\lambda\rightarrow\infty$,使(\ref{eq6:4})左端趋于$-\infty$而导出矛盾.于是,结合\cref{thm6:1}知
    \begin{equation*}
        \begin{aligned}
            f(y) & \geq f(x)+f'(x;y-x)                                                \\
                 & \geq f(x)+\langle \tilde{g},y-x\rangle, \forall y\in\text{dom}(f).
        \end{aligned}
    \end{equation*}
    $\Rightarrow \tilde{g}\in\partial f(x)$.在(\ref{eq6:4})式令$\lambda =0$得
    $$f'(x;d)\leq \langle \tilde{g},d\rangle.$$
    因而$f'(x;d)\leq \langle \tilde{g},d\rangle\leq\max\{\langle g,d\rangle:g\in\partial f(x)\}$.\\至此可知,结论成立.证毕.
\end{proof}
~\par
次梯度是微积分理论中梯度概念的一种推广.

\begin{theorem}\label{thm6:3}
    设$f:\mathbb{R}^n\rightarrow\mathbb{R}\cup\{+\infty\}$为凸函数且$\text{dom}(f)\neq \emptyset$, $x\in\text{int dom}(f)$.若$f$在$x$点处可微,则$\partial f(x)=\{\nabla f(x)\}$.反之,若$\partial f(x)$为单点集则$f$在$x$处可微且$\partial f(x)=\{\nabla f(x)\}$.
\end{theorem}

\begin{proof}
    假设$f$在$x$处可微,则有
    $$f(y)=f(x)+\langle \nabla f(x),y-x\rangle+o(\| y-x\|).$$
    此处$o(\cdot)$指$\lim\limits_{\tau\rightarrow 0_+}\frac{o(t)}{t}=0$.于是,
    \begin{equation*}
        \begin{aligned}
            f'(x;d) & =\lim\limits_{\tau\rightarrow 0_+}\frac{f(x+\tau d)-f(x)}{\tau}                                \\
                    & =\lim\limits_{\tau\rightarrow 0_+}\frac{\tau\langle \nabla f(x),d\rangle+o(\tau \| d\|)}{\tau} \\
                    & =\langle \nabla f(x),d\rangle.
        \end{aligned}
    \end{equation*}
    现任取$g\in\partial f(x)$.据\cref{thm6:2}及上式可知
    $$\langle \nabla f(x),d\rangle=f'(x;d)\geq\langle g,d\rangle.$$
    于是, $\langle g-\nabla f(x),d\rangle\leq 0$, $\forall d\in\mathbb{R}^n$.取$d=g-\nabla f(x)$, 则上式推$g=\nabla f(x)$.因此$\partial f(x)=\{\nabla f(x)\}$.\\
    往证反向命题.设$\partial f(x)=\{g\}$.则\cref{thm6:2}意味着$f'(x;d)=\langle g,d\rangle$.\\
    考虑凸函数$h(u):=f(x+u)-f(x)-\langle g,u\rangle(\geq0)$.\\
    我们将证明
    \begin{equation}\label{eq6:5}
        \lim\limits_{u \rightarrow 0}\frac{h(u)}{\| u\|}=0.
    \end{equation}
    从而证明了$f$在$x$处可微且$g=\nabla f(x)$.\\
    设$u(t)=\sum\limits_{i=1}^n c_i(t)e_i$.记$a^+=\max\{a,0\}$, $a^-=-\min\{a,0\}$.\\
    则$c_i(t)=c_i^+(t)-c_i^-(t)$.令
    $$d_i=e_i,d_{i+n}=-e_i,\tilde{\mathcal{C}}_i=c^+_i,\tilde{\mathcal{C}}_{i+n}=c_i^-,i=1,\cdots,n.$$则
    $$u(t)=\sum\limits^{2n}_{i=1}\tilde{\mathcal{C}}_i(t)d_i.$$
    记$s(t)=\sum\limits^{2n}_{i=1}\tilde{\mathcal{C}}_i(t)$.则$u(t)\neq 0$时$s(t)>0$且当$u(t)\rightarrow 0$时$s(t)\rightarrow 0_+$.一方面
    \begin{equation*}
        \begin{aligned}
            \| u(t)\|^2 & =\sum\limits^{2n}_{i=1}c_i^2(t)=\sum\limits^{2n}_{i=1}[c_i^+(t)^2+c_i^-(t)^2] \\
                        & =\sum\limits^{2n}_{i=1}\tilde{\mathcal{C}}_i(t)^2\geq \frac{1}{2n}s^2(t).
        \end{aligned}
    \end{equation*}
    可知$\| u(t)\|\geq s(t)\cdot \frac{1}{\sqrt{2n}}$.\\
    另一方面,\begin{equation*}
        \begin{aligned}
            h(u(t)) & =h(\sum\limits^{2n}_{i=1}\tilde{\mathcal{C}}_i(t)d_i)                            \\
                    & =h(\sum\limits^{2n}_{i=1}\frac{\tilde{\mathcal{C}}_i(t)}{s(t)}d_i s(t))          \\
                    & \leq \sum\limits^{2n}_{i=1}\frac{\tilde{\mathcal{C}}_i(t)}{s(t)}\cdot h(d_is(t)) \\
                    & \leq \sum\limits^{2n}_{i=1}h(d_is(t)).
        \end{aligned}
    \end{equation*}
    于是, $0\leq \frac{h(u(t))}{\| u(t)\|}\leq \sqrt{2n}\cdot \sum\limits^{2n}_{i=1}\frac{h(d_i s(t))}{s(t)}$.\\由$f'(x;d)=\langle g,d\rangle$可知当$\tau\rightarrow 0_+$时, $\frac{h(\tau d)}{\tau}\rightarrow 0$.\\于是,当$u(t)\rightarrow 0$时, $\frac{h(d_i s(t))}{s(t)}\rightarrow 0$.也即(\ref{eq6:5})式成立.证毕.
\end{proof}
~\par
\cref{thm6:3}指出:次微分是梯度概念的推广.为加深认识,我们介绍梯度与次梯度的几何解释.首先,考虑函数的梯度$\nabla f(x)$.为此,引入$f$的等值域$x(t):\mathbb{R}\rightarrow \mathbb{R}^n$.在该曲线上, $f(x(t))$取值为常数,也即存在$c$使得
$$f(x(t))=c.$$
求导可得:
$$\langle \dot{x}(t),\nabla f(x(t))\rangle=0.$$
其中, $\dot{x}(t)$为$x(t)$的导数.可见, $\nabla f(x)$与$\dot{x}(t)$正交.几何解释见图.

\begin{figure}[!htb]\label{fg6:1}
    \centering
    \includegraphics[width=0.5\textwidth]{image/fg11.png}
\end{figure}

现考虑次梯度$g\in\partial f(x)$.从其定义
$$f(y)\geq f(x)+\langle g,y-x\rangle,\forall y\in\mathbb{R}^n$$
可看出, $f$的上图$\text{epi} (f)$位于仿射函数
$$\ell(y)=f(x)+\langle g,y-x\rangle$$的上方.也即,对任意$(y,r)\in\text{epi}(f)$,均有
$$r\geq f(y)\geq \ell (y).$$
因而, $\langle (g,-1), (y,r)-(x,f(x))\rangle\leq 0,\forall (y,r)\in\text{epi}(f)$.\\
故有$(g,-1)\in K^\circ_{\text{epi}(f)}(x,f(x))$.\\
也即$(g,-1)$属于可行方向锥$K_{\text{epi}(f)}(x,f(x))$的极锥.

\begin{figure}[!htb]\label{fg6:2}
    \centering
    \includegraphics[width=0.4\textwidth]{image/fg12.png}
\end{figure}

\section{最速下降方向}\label{sec6:3}

在给出次微分集中最速下降的次梯度方向前,我们先回顾作为最速下降方向的负梯度方向.假设$\nabla f(x)\neq 0$.固定方向$d\in\mathbb{R}^n$且$\| d\| =1$.考虑沿此方向函数值的变化,由可微的定义知,
$$f(x+\tau d)=f(x)+\tau \nabla f(x)^Td+o(\tau),\tau >0.$$
当$\nabla f(x)^T d<0$时,由于$\frac{o(\tau)}{\tau}\rightarrow 0$, $\tau \rightarrow 0_+$可知,存在$\varepsilon >0$,使得当$0<\tau<\varepsilon$时, $\frac{o(\tau)}{\tau}\leq -\frac{\nabla f(x)^Td}{2}$.此时
$$f(x+\tau d)-f(x)\leq \frac{\tau}{2}\cdot \nabla f(x)^Td<0.$$
上式表明,从$x$点沿方向出发,当步长$\tau<\varepsilon$时,
$$f(x+\tau d)<f(x).$$
因此,称满足条件$\nabla f(x)^Td<0$的方向$d$为下降方向.而称下降最快或$\nabla f(x)^Td$最小的方向$\hat{d}$为最速下降方向.也即,
\begin{equation*}
    \begin{aligned}
        \hat{d}= & \mathop{\text{argmin}}\{\nabla f(x)^Td\}, \\
                 & \text{s.t. }\| d\| = 1.
    \end{aligned}
\end{equation*}
则$\hat{d}=-\frac{\nabla f(x)}{\| \nabla f(x)\|}$.事实上,由Cauchy-Schwarz不等式
\begin{equation*}
    \begin{aligned}
        |\nabla f(x)^Td|\leq \| \nabla f(x)\|\cdot \| d\| =\| \nabla f(x)\|. \\
        \Rightarrow -\| \nabla f(x)\|\leq \nabla f(x)^Td\leq \| \nabla f(x)\|,\forall \| d\| = 1.
    \end{aligned}
\end{equation*}
而$\hat{d}=-\frac{\nabla f(x)}{\| \nabla f(x)\|}$可取得下界$-\| \nabla f(x)\|$.
~\\
~\par
对一般的凸函数(不一定可微),我们用次线性的方向导数$f'(x;d)$代替$\nabla f(x)^Td$定义最速下降方向.

\begin{theorem}\label{thm6:4}
    设$f:\mathbb{R}^n\rightarrow\mathbb{R}\cup\{+\infty\}$在$x$处次可微且$0\notin\partial f(x)$, $x\in\text{int dom}(f)$.定义$\varLambda = \mathop{\text{argmin}}\{f'(x;d):\| d\|\leq 1\}$为最速下降方向集.则$$\hat{d}=-\frac{g}{\| g\|}\in \varLambda.$$
    其中$g=\mathop{\text{argmin}}\{\| z\|:z\in\partial f(x)\}$.
\end{theorem}

\begin{proof}
    容易验证$\partial f(x)$为闭凸集.从而$g$是确定的.由于$0\notin\partial f(x)$,可知$g$为非零向量且为$0$到$\partial f(x)$的投影.于是由投影定理知
    $$\langle 0-g,s-g\rangle\leq 0,\forall s\in\partial f(x).$$
    从而, $\langle -g,s\rangle\leq -\| g\|^2$, $\forall s\in\partial f(x)$.这意味着$\max\limits_{s\in\partial f(x)}\langle -g,s\rangle=-\| g\|^2$.\\
    结合$f'(x;d)$与$\partial f(x)$的关系式可知
    \begin{equation*}
        \begin{aligned}
            f'(x;\hat{d}) & =\max\limits_{s\in\partial f(x)}\langle \hat{d},s\rangle=\frac{1}{\| g\|}\max\limits_{s\in\partial f(x)}\langle -g,s\rangle \\
                          & =-\| g\|.
        \end{aligned}
    \end{equation*}
    另一方面,对任意$d$满足$\| d\|\leq 1$,
    $$f'(x;d)=\max\limits_{s\in\partial f(x)}\langle d,s\rangle\geq \langle d,g\rangle\geq -\| d\|\cdot\| g\|=-\| g\|.$$
    故$f'(x;d)$在$\hat{d}$处取到最小值$-\| g\|$.证毕.
\end{proof}
~\par
值得指出的是,并非所有的负次梯度方向均为下降方向.

\begin{example}\label{exa6:2}
    设$f(x_1,x_2)=|x_1|+2|x_2|.$则
    $$\partial f(1,0)=\{(1,t):|t|\leq 2\}.$$
    考虑次梯度$g=(1,2)$则$-g$方向为$f$的上升方向.
\end{example}
\begin{figure}[!htb]\label{fg6:3}
    \centering
    \includegraphics[width=0.5\textwidth]{image/fg6.png}
\end{figure}

\begin{example}\label{exa6:3}
    设$\| \cdot\|_\diamond  $为$\mathbb{R}^n$中的范数,其对偶范数$\| \cdot\|_*$定义为:
    $$\| y\|_*=\sup\limits_{d\neq 0}\frac{\langle y,d\rangle}{\| d\|_\diamond}.$$
    则有
    $$\partial \| x\|_\diamond=\left\{\begin{array}{cc}
            \{g\in\mathbb{R}^n:\| g\|_*\leq 1\},                                         & x=0,     \\
            \{g\in\mathbb{R}^n:\| g\|_*=1\text{且} \langle g,x\rangle=\| x\|_\diamond\}, & x\neq 0.
        \end{array}\right.$$
\end{example}

\begin{proof}
    当$x=0$时, $g\in\partial \| 0\|_\diamond$等价于
    $$\| y\|_\diamond \geq \| 0\|_\diamond+\langle g,y\rangle,\forall y\in\mathbb{R}^n.$$
    也即, $\| y\|_\diamond\geq \langle g,y\rangle,\forall y\in\mathbb{R}^n$.\\
    上式等价于$\| g\|_*\leq 1$.事实上,若$\| g\|_*\leq 1$.则
    $$\frac{\langle g,y\rangle}{\| y\|_\diamond}\leq \sup\limits_{d\neq 0}\frac{\langle g,d\rangle}{\| d\|_\diamond}=\| g\|_*\leq 1,\forall y\neq 0.$$
    从而$\langle g,y\rangle\leq \| y\|_\diamond$, $\forall y\in\mathbb{R}^n$.\\
    另一方面,若上式成立,则有$\frac{\langle g,y\rangle}{\| y\|_\diamond}\leq 1$, $\forall y\neq 0$.
    取上确界即得$\| g\|_*\leq 1$.
    \par 当$x\neq 0$时,任取$g\in\partial \| x\|_\diamond$.则有
    \begin{equation*}
        \begin{aligned}
            2\| x\|_\diamond & = \| x+x\|_\diamond\geq \| x\|_\diamond+\langle g,x\rangle, \\
            0                & =\| x-x\|_\diamond\geq\| x\|_\diamond-\langle g,x\rangle.
        \end{aligned}
    \end{equation*}
    这意味着$\langle g,x\rangle=\| x\|_\diamond$.从而$\| g\|_*\geq \langle g,\frac{x}{\| x\|_\diamond}\rangle=1$.假若$\| g\|_* >1$,则存在$d$使得$\| d\|_\diamond=1$且$\langle g,d\rangle>1$.此时,
    $$\| x\|_\diamond+1=\| x\|_\diamond+\| d\|_\diamond\geq \| x+d\|_\diamond\geq \| x\|_\diamond+\langle g,d\rangle >\| x\|_\diamond +1.$$
    矛盾!从而, $\| g\|_*=1$.\\
    剩余只需验证若$\| g\|_*=1$且$\langle g,x\rangle=\| x\|_\diamond$,则必有$g\in\partial \| x\|_\diamond$.\\
    事实上, $$1=\| g\|_*=\sup\limits_{y\neq 0}\frac{\langle g,y\rangle}{\| y\|_\diamond}\Rightarrow \| y\|_\diamond\geq \langle g,y\rangle=\langle g,x\rangle +\langle g,y-x\rangle =\| x\|_\diamond +\langle g,y-x\rangle.$$
    从而$g\in\partial \| x\|_\diamond$.证毕.
\end{proof}
~\par
特别地,我们有如下常见的次微分.
\begin{itemize}
    \item 对于欧氏范数,
          $$\partial \| x\| = \left\{\begin{array}{cc}
                  \{\frac{x}{\| x\|}\} , & x\neq 0, \\
                  \{g:\| g\|\leq 1\} ,   & x=0.
              \end{array}\right.$$
    \item 对于绝对值函数$|x|$,
          $$\partial  |x| = \left\{\begin{array}{cc}
                  \{\text{sgn}(x)\} ,   & x\neq 0, \\
                  \left[-1 , 1\right] , & x=0.
              \end{array}\right.$$
          而对于$\ell_1$范数$\| x\|_1$,我们有
          $$\text{sgn}(x)\in\partial \| x\|_1.$$
          为推出更强的结果,需要借助次微分法则.
\end{itemize}

\section{次微分法则}\label{sec6:4}

\begin{theorem}\label{thm6:5}
    设$f,f_1,f_2:\mathbb{R}^n\rightarrow (-\infty,+\infty]$为正常凸函数且$\alpha>0$.则
    \begin{itemize}
        \item[(i)]  对任意的$x\in\text{dom}(f)$,均有$$\partial (\alpha f)(x)=\alpha \cdot \partial f(x).$$
        \item[(ii)]  对任意的$x\in\text{dom}(f_1)\cap\text{dom}(f_2)$,均有$$\partial f_1(x)+\partial f_2(x)\subseteq \partial (f_1+f_2)(x).$$
        \item[(iii)] 对任意的$x\in\text{int}(\text{dom}(f_1))\cap\text{int}(\text{dom}(f_2))$,均有$$\partial (f_1+f_2)(x) = \partial f_1(x)+\partial f_2(x).$$
    \end{itemize}
\end{theorem}

\begin{proof}
    仅验证(ii)和(iii).\\
    令$g\in\partial f_1(x)+\partial f_2(x)$,则存在$g_i\in\partial f_i(x)$, $i=1,2$使得$$g=g_1+g_2.$$
    由次梯度定义知,对$\forall y\in\text{dom}(f_1)\cap\text{dom}(f_2)$,有$$f_i(y)\geq f_i(x)+\langle g_i,y-x\rangle,i=1,2.$$
    求和可得:
    $$f_1(y)+f_2(y)\geq f_1(x)+f_2(x)+\langle g_1+g_2,y-x\rangle.$$
    从而$g_1+g_2=g\in\partial (f_1+f_2)(x)$.也即(ii)成立.\\
    为证(iii).反设存在$g\in\partial (f_1+f_2)(x)$使得$$g\notin \partial f_1(x)+\partial f_2(x).$$
    由练习题1可知$\partial f_i(x)$均为非空有界闭凸集.从而$$\partial f_1(x)+\partial f_2(x)$$为有界闭凸集.由分离定理可知存在非零向量$d\in\mathbb{R}^n$及$\varepsilon >0$使得
    \begin{equation}\label{eq6:6}
        \langle g,d\rangle \geq \langle g_1+g_2,d\rangle+\varepsilon,\forall g_i\in\partial f_i(x).
    \end{equation}
    由\cref{thm6:2}知$f'_i(x;d)=\max\{\langle g_i,d\rangle:g_i\in\partial f_i(x)\}$.因此,结合(\ref{eq6:6})式可得
    $$\langle g,d\rangle \geq f'_1(x;d)+f'_2(x;d)+\varepsilon.$$
    另一方面, $\langle g,d\rangle\leq f'(x;d)$.从而
    $$f'(x;d)\geq f'_1(x;d)+f'_2(x;d)+\varepsilon.$$
    但由方向导数的定义可知$$f'(x;d)=f'_1(x;d)+f'_2(x;d)$$矛盾!证毕.
\end{proof}

\begin{corollary}\label{cor6:1}
    设$f_1,f_2,\cdots,f_m:\mathbb{R}^n\rightarrow\mathbb{R}$为实值凸函数.则对任意的$x\in\mathbb{R}^n$均有
    $$\partial (\sum\limits^m_{i=1}f_i)(x)=\sum\limits^m_{i=1}\partial f_i(x).$$
\end{corollary}
该推论是基于$\text{dom}(f_i)=\mathbb{R}^n$.从而$\bigcap\limits^m_{i=1}\text{int dom}(f_i)=\mathbb{R}^n$的事实.基于该推论,可导出$\| \cdot\|_1$的次微分.

\begin{example}\label{exa6:4}
    设$f:\mathbb{R}^n\rightarrow\mathbb{R}$为$f(x)=\| x\|_1=\sum\limits^n_{i=1}|x_i|$.则$$f=\sum\limits^n_{i=1}f_i.$$
    其中$f_i(x)=|x_i|$.记
    \begin{equation*}
        \begin{aligned}
            I_0(x)   & :=\{i:x_i=0\},     \\
            I^c_0(x) & :=\{i:x_i\neq 0\}.
        \end{aligned}
    \end{equation*}
    则$\partial \| x\|_1=\{s\in\mathbb{R}^n:s_i=\text{sgn}(x_i),i\in I_0^c(x),|s_j|\leq 1,j\in I_0(x)\}$.
\end{example}

下述结果给出了仿射变换下的次微分法则.
\begin{theorem}\label{thm6:6}
    设$f:\mathbb{R}^m\rightarrow (-\infty,+\infty]$为正常凸函数, $b\in\mathbb{R}^m$, $A:\mathbb{R}^n\rightarrow\mathbb{R}^m$为线性变换,令
    $$h(x)=f(Ax+b),x\in\mathbb{R}^n.$$
    假设$\text{dom}(h)=\{x:Ax+b\in\text{dom}(f)\}\neq \emptyset$.则
    \begin{itemize}
        \item[(i)] 对任意$x\in\text{dom}(h)$, $$A^T\cdot\partial f(Ax+b)\subseteq \partial h(x).$$
        \item[(ii)]  对任意$x\in\text{int}(\text{dom}(h))$,且满足$Ax+b\in\text{int}(\text{dom}f$,
            $$A^T\cdot\partial f(Ax+b)=\partial h(x).$$
    \end{itemize}
\end{theorem}

\begin{proof}
    \begin{itemize}
        \item[(i)] 取$g\in A^T\cdot \partial f(Ax+b)$则存在$$d\in\partial (Ax+b).$$使得$g=A^Td$.\\
            对任意$y\in\text{dom}(h)$,我们有$Ay+b\in\text{dom}(f)$.从而
            \begin{equation*}
                \begin{aligned}
                    f(Ay+b) & \geq f(Ax+b)+\langle d,Ay-Ax\rangle \\
                            & =f(Ax+b)+\langle A^Td,y-x\rangle.
                \end{aligned}
            \end{equation*}
            于是, $$h(y)\geq h(x)+\langle g,y-x\rangle, \forall y\in\text{dom}(h).$$
            故$g\in\partial h(x)$.也即(i)得证.
        \item[(ii)]  反设存在$g\in\partial h(x)$使得当$$g\notin A^T\cdot\partial f(Ax+b).$$
            由于$Ax+b\in\text{int}(\text{dom}f$,根据练习题1可知$\partial f(Ax+b)$为非空有界闭凸集.\\
            从而$A^T\cdot\partial f(Ax+b)$亦为非空有界闭凸集.\\
            应用分离定理知存在非零向量$d\in\mathbb{R}^n$及$\varepsilon>0$,使得
            $$\langle g,d\rangle\geq \langle A^Ts,d\rangle+\varepsilon,\forall s\in\partial f(Ax+b).$$
            因而, $$\langle g,d\rangle\geq \langle s,Ad\rangle+\varepsilon, \forall s\in\partial f(Ax+b).$$再结合\cref{thm6:2}可得
            $$h'(x;d)\geq f'(Ax+b;Ad)+\varepsilon.$$
            但由方向导数的定义可知
            $$h'(x;d)=f'(Ax+b).$$
            矛盾.
    \end{itemize}
\end{proof}

\begin{theorem}\label{thm6:7}
    设$f_1,f_2,\cdots,f_m:\mathbb{R}^n\rightarrow (-\infty,+\infty]$为正常凸函数.令
    $$f(x)=\max\{f_1(x),f_2(x),\cdots,f_m(x)\}.$$
    若$x\in\bigcap\limits^m_{i=1}\text{int}(\text{dom}(f_i))$,则
    $$\partial f(x)=\text{conv}(\bigcup\limits_{i\in I(x)}\partial f_i(x)).$$
    其中, $I(x)=\{i\in \left[m\right]:f_i(x)=f(x)\}$.\\
    特别地,当$f_i$均连续可微时, $$\partial f(x)=\text{conv}\{\nabla f_i(x):i\in I(x)\}.$$
\end{theorem}

\begin{proof}
    为简单起见,仅证明$f_i$可微的情形.先证明
    $$\text{conv}\{\nabla f_i(x):i\in I(x)\}\subset \partial f(x).$$
    设$i\in I$,则$f(x)=f_i(x)$.因而
    \begin{equation*}
        \begin{aligned}
            f(y)=f_i(y) & \geq f_i(x)+\langle \nabla f_i(x),y-x\rangle                    \\
                        & =f(x)+\langle \nabla f_i(x),y-x\rangle, \forall y\in\mathbb{R}.
        \end{aligned}
    \end{equation*}
    据此可知$\nabla f_i(x)\in \partial f(x)$, $\forall i\in I$.又$\partial f(x)$为凸集.因此$\text{conv}\{\nabla f_i(x):i\in I(x)\}\subset \partial f(x)$.\\
    反之,假设存在$g\in \partial f(x)$但$g\notin \text{conv}\{\nabla f_i(x):i\in I(x)\}$.由分离定理可知存在非零向量$d\in\mathbb{R}^n$及$\varepsilon>0$使得
    $$\langle g,d\rangle \geq\langle \sum\limits_{i\in I(x)}\lambda_i\nabla f_i(x),d\rangle+\varepsilon, \forall \lambda\in\Delta_{|I(x)|}. $$
    结合\cref{thm6:2}可得
    \begin{equation*}
        f'(x;d)\geq \langle g,d\rangle\geq \langle \sum\limits_{i\in I(x)}\lambda_i\nabla f_i(x),d\rangle+\varepsilon\geq \max\limits_{i\in I(x)}\langle \nabla f_i(x),d\rangle+\varepsilon.
    \end{equation*}
    但另一方面可证
    \begin{equation}\label{eq6:7}
        f'(x;d)=\max_{i\in I(x)}f'(x;d)=\max_{i\in I(x)}\langle \nabla f_i(x),d\rangle.
    \end{equation}
    矛盾.因此,剩余只需证明(\ref{eq6:7})式.事实上,由$f_i$联系可微,以及当$i\in I(x)$时,
    $$f_i(x)=f(x)>f_j(x),\forall j\notin I(x).$$
    可知存在$\varepsilon>0$,使得当$\tau \in (0,\varepsilon]$时,
    $$f(x+\tau d)=\max_{i\in I(x)}f_i(x+\tau d).$$
    因此,
    \begin{equation*}
        \begin{aligned}
            f'(x;d) & =\lim_{\tau \rightarrow0_+}\frac{f(x+\tau d)-f(x)}{\tau}                    \\
                    & =\lim_{\tau \rightarrow \max_{i\in I(x)}}\frac{f_i(x+\tau d)-f(x)}{\tau}    \\
                    & =\max_{i\in I(x)}\lim_{\tau \rightarrow 0_+}\frac{f_i(x+\tau d)-f(x)}{\tau} \\
                    & =\max_{i\in I(x)}f'_i(x;d).
        \end{aligned}
    \end{equation*}
    证毕.
\end{proof}

\begin{problemset}
    \item 证明:若$x\in\text{int dom}(f)$,则$\partial f(x)$非空且有界.
    \item 推导$f(x)=\| Ax+b\|_1$的次微分公式:
    $$\partial f(x)=\sum\limits_{i\in I^c_0}\text{sgn}(a^T_ix+b_i)a_i+\sum\limits_{i\in I_0}\left[-a_i,a_i\right].$$
    其中$a_i$为$A$的第$i$行对应的向量, $b_i$为$b$的第$i$个元素,
    \begin{equation*}
        \begin{aligned}
            I_0   & =\{i:a_i^Tx+b_i=0\},     \\
            I_0^c & =\{i:a_i^Tx+b_i\neq 0\}.
        \end{aligned}
    \end{equation*}
    \item 设$f:\mathbb{R}^n\rightarrow(-\infty,+\infty]$为正常凸函数, $X\subseteq\text{int}(\text{dom}f$.考虑下述命题:
    \begin{itemize}
        \item[(i)] $|f(x)-f(y)|\leq L\| x-y\|$, $\forall x,y\in X$;
        \item[(ii)]  $\| g\|\leq L$, $\forall g\in\partial f(x)$, $\forall x\in X$.
    \end{itemize}
    则(ii)$\Rightarrow$(i)且若$X$为开集,则(i)$\Rightarrow$(ii).
    \item 试推导上一章习题4中函数$f_k(x)$的次微分公式.
    \item 设$f:\mathbb{R}^n\rightarrow(-\infty,+\infty]$为凸函数.证明对任意的$x,y\in\text{dom} (f)$, $g_x\in\partial f(x)$, $g_y\in\partial f(y)$均有
    $$\langle g_x-g_y,x-y\rangle\geq 0.$$
    \item 设$K$为闭的凸锥.证明: $\partial \delta_k(0)=K^\circ$.
    \item 设$f:\mathbb{R}^n\rightarrow(-\infty,+\infty]$为正常凸函数.证明$\partial f(x)$为闭凸集.
    \item 设$f:\mathbb{R}^2\rightarrow(-\infty,+\infty]$定义为
    \begin{equation*}
        f(x_1,x_2)=\left\{\begin{array}{cc}
            \max\{1-\sqrt{x_1},\sqrt{x_2}\}, & x_1\geq 0; \\
            +\infty,                         & others.
        \end{array}\right.
    \end{equation*}
    证明$f$为凸函数但$\text{dom}(\partial f)$为非凸集.\\
    (hint:f的凸: $f_1(x)=1-\sqrt{x_1}$, $f_2(x)=|x_2|$均为凸, $f=\max\{f_1,f_2\}$也为凸.
    \\在原点处,沿射线$\{(x_1,0):x_1\geq 0\}$, $f$的次梯度不存在.但沿$\{(0,x_2):x_2\in\mathbb{R}\}$次可微.从而原点破坏了$\text{dom}(\partial f)$的凸性.)
\end{problemset}


\chapter{共轭函数}\label{chap:7}
在分析领域,函数变换为我们研究函数性质提供了新的视角.典型的例子Fourier变换,提供了时频分析的工具.而在凸分析领域, Legendre变换则将一个函数映射成共轭函数,为凸函数与凸优化的研究提供了对偶分析的工具.
\section{定义与基本性质}\label{sec7:1}

\begin{definition}\label{def7:1}
    设$f:\mathbb{R}^n\rightarrow\bar{\mathbb{R}}$.则$f$的共轭函数定义为:
    $$f^*(y)=\sup_{x\in\mathbb{R}^n}\{\langle y,x\rangle-f(x)\}.$$
\end{definition}
\begin{figure}[!htb]\label{fg7:1}
    \centering
    \includegraphics[width=0.4\textwidth]{image/fg16.png}
\end{figure}

假设我们想从函数$f$的下方对$f$做线性逼近,给定线性函数的斜率$s\in\mathbb{R}^n$.设线性函数为
$$\ell(x)=s^Tx-\alpha.$$
其中$\alpha$为特定的参数.为了在$\mathbb{R}^{n+1}$空间中显示几何含义.将函数$\ell(x)$写成$\mathbb{R}^{n+1}$中的超平面,也即
$$H_\alpha:=\left\{(x,y)\in\mathbb{R}^{n+1}:(s,-1)\left(\begin{array}{cc}x\\y\end{array}\right)=\alpha\right\}.$$
由于$f(x)\geq \ell(x)$.可知
$$\alpha\geq s^Tx-f(x),\forall x\in\mathbb{R}^n.$$
于是,最小可行的$\alpha$为
$$\bar{\alpha}=\sup\limits_x\{s^Tx-f(x)\}\triangleq f^*(s).$$
换言之, $(0,-f^*(s))$为最逼近$f$的线性函数与Y轴的交点.

由于上确界内的函数是关于$y$的线性函数,可知无论$f$是否为凸函数, $f^*$恒为凸函数.若$f:\mathbb{R}^n\rightarrow\mathbb{R}\cup\{+\infty\}$且$\text{dom}(f)\neq \emptyset$,则称一个函数为正规的(proper).下述结果表明: $f^*$继承了$f$的正规性.

\begin{theorem}\label{thm7:1}
    设$f:\mathbb{R}^n\rightarrow\mathbb{R}\cup\{+\infty\}$为正规凸函数,则$f^*$为正规的.
\end{theorem}

\begin{proof}
    首先由$f$正规可知存在$\hat{x}$使得$f(\hat{x})<+\infty$.再据$f^*$的定义知
    $$f^*(y)\geq \langle y,\hat{x}\rangle-f(\hat{x})>-\infty.$$
    只需证明存在$g$使得$f^*(g)<\infty$即可.\\
    为此,取$g\in\partial f(x)$.其中$x\in\text{dom}(f)$.则
    $$\forall z,f(z)\geq f(x)+\langle g,z-x\rangle.$$
    于是, \begin{equation*}
        \begin{aligned}
            f^*(y) & =\sup_{z\in\mathbb{R}^n}\{\langle g,z\rangle-f(z)\} \\
                   & \leq \langle g,x\rangle-f(x)<\infty.
        \end{aligned}
    \end{equation*}
    即证.
\end{proof}
~\par
除了凸性和正规性, $f^*$还是闭函数,也即其上图为闭集,这是因为$\text{epi}(f^*)$为一族闭集$\text{epi}(\ell_x(y))$的交集,其中$\ell_x(y)=\langle y,x\rangle-f(x)$为线性函数.此处顺带指出函数的闭性等价于函数的下半连续性:
$$\lim\limits_{k\rightarrow\infty}\inf f(x_k)\geq f(x),\forall x_k\rightarrow x.$$
\par 下述的Fenchel-Moreau定理表明:若$f$本身为正规的、凸的、且闭的函数,则对$f$做两次共轭变换后不变.也即$f^{**}=f$.其中, $f^{**}(x)=\sup\limits_{y\in \mathbb{R}^n}\{\langle y,x\rangle-f^*(y)\}$.

\begin{theorem}{双共轭定理}\label{thm7:2}
    设$f:\mathbb{R}^n\rightarrow\mathbb{R}\cup\{+\infty\}$为正规、凸且闭的函数.则有$f^{**}=f$.
\end{theorem}

\begin{proof}
    先证$f^{**}\leq f$.事实上.据共轭的定义有
    $$f^*(y)\geq \langle y,x\rangle-f(x).$$
    于是, $f(x)\geq \langle y,x\rangle-f^*(y)$,即通常所称的Fenchel-Young不等式.\\
    进而,\begin{equation*}
        \begin{aligned}
            f & \geq \sup_y\{\langle y,x\rangle-f^*(y)\} \\
              & =f^{**}(x).
        \end{aligned}
    \end{equation*}
    ~\\
    为证$f\leq f^{**}$.我们反设存在$x_0\in\mathbb{R}^n$.使得
    $$f^{**}(x_0)<f(x_0).$$
    这意味着$(x_0,f^{**}(x_0))\notin \text{epi}(f)$.\\
    由于$f$为正规、凸且闭可知, $\text{epi}(f)$为非闭凸集.因此,由分离定理可知存在非零向量$a\in\mathbb{R}^{n+1}$及$\varepsilon>0$使得
    $$\langle a,u\rangle\leq \langle a, (x_0,f^{**}(x_0))>-\varepsilon,\forall u\in\text{epi}(f).$$
    设$a=(a_0,\alpha)$,其中$a_0\in\mathbb{R}^n$, $u=(x,r)$, $r\geq f(x)$.则上式可写成:
    \begin{equation}\label{eq7:1}
        \langle a_0,x\rangle+\alpha r\leq \langle a_0,x_0\rangle+\alpha f^{**}(x_0)-\varepsilon.
    \end{equation}
    \begin{itemize}
        \item[(i)] 若$\alpha=0$,则上式中取$x=x_0$可得$0\leq -\varepsilon$.矛盾!
        \item[(ii)] 若$\alpha>0$,则上式中取$x=x_0$可得$r\rightarrow\infty$.矛盾!
    \end{itemize}
    因此,必有$\alpha<0$.现在(\ref{eq7:1})式令$r=f(x)$后左右同除$-\frac{1}{\alpha}$.可得:
    $$\langle -\frac{1}{\alpha}a_0,x\rangle-f(x)\leq \langle -\frac{1}{\alpha},x_0\rangle-f^{**}(x_0)+\frac{\varepsilon}{\alpha},\forall x\in\mathbb{R}^n.$$
    令$y=-\frac{1}{\alpha}a_0$并对左式取关于$x$变量的上确界可得
    $$f^*(y)\leq \langle y,x_0\rangle-f^{**}(x_0)+\frac{\varepsilon}{\alpha}.$$
    因而, $f^*(y)+f^{**}(x_0)\leq \langle y,x_0\rangle+\frac{\varepsilon}{\alpha}<\langle y,x_0\rangle$.\\
    另一方面,由$f^{**}(x_0)\geq \langle y,x_0\rangle-f^*(y)$可知
    $$f^{**}(x_0)+f^*(y)\geq \langle y,x_0\rangle$$
    矛盾!因此$f^{**}\geq f$.\\
    综上, $f^{**}=f$,证毕.
\end{proof}

\begin{corollary}\label{cor7:1}
    设$f:\mathbb{R}^n\rightarrow(-\infty,+\infty]$为正规的闭凸函数,则$f$可表达成一族小于$f$的仿射函数的上确界函数.也即存在仿射$\ell_u(x)\leq f(x)$,使得
    $$f(x)=\sup\limits_{u\in I}\ell_u(x).$$
\end{corollary}

\begin{proof}
    由双共轭定理知
    \begin{equation*}
        \begin{aligned}
            f(x)=f^{**}(x) & =\sup\limits_y\{\langle x,y\rangle-f^*(y)\}                     \\
                           & =\sup\limits_{(u,v)\in\text{epi}(f^*)}\{\langle x,u\rangle-v\}.
        \end{aligned}
    \end{equation*}
    令$\ell_u(x)=\langle x,u\rangle-v$.只需验证$\ell_u(x)\leq f(x)$.\\
    事实上, $(u,v)\in\text{epi}(f^*)$以及$f^*$的定义可知
    $$v\geq f^*(u)\geq \langle x,u\rangle-f(x).$$
    即证.
\end{proof}

\begin{example}\label{exa7:1}
    设$f:\mathbb{R}\rightarrow\mathbb{R}$定义为$f(x)=\frac{1}{p}|x|^p$, $p>1$.则
    $$f^*(y)=\frac{1}{q}|y|^q.$$
    其中$q$为$p$的共轭数: $\frac{1}{p}+\frac{1}{q}=1$.
\end{example}

\begin{proof}
    由定义,
    $$f^*(y)=\sup\limits_x\left\{xy-\frac{1}{p}|x|^p\right\}.$$
    一方面,由第\ref{chap:1}章练习中的Young不等式可知
    $$xy\leq|xy|\leq \frac{|x|^p}{p}+\frac{|y|^q}{q},\forall x,y\in\mathbb{R}.$$
    \begin{equation*}
        \begin{aligned}
            \Rightarrow \frac{1}{q}|y|^q & \geq xy-\frac{|x|^p}{p},\forall x. \\
            \Rightarrow \frac{1}{q}|y|^q & \geq f^*(y).
        \end{aligned}
    \end{equation*}
    另一方面,取$\tilde{x}=\text{sgn}(y)\cdot |y|^{\frac{1}{p-1}}$代入$xy-\frac{1}{p}$可知
    $$f^*(y)\geq \tilde{x}y-\frac{1}{p}|\tilde{x}|^p=\frac{1}{q}|y|^q.$$
    故$f^*(y)=\frac{1}{q}|y|^q.$
\end{proof}

\begin{example}\label{exa7:2}
    设$f:\mathbb{R}\rightarrow(-\infty,+\infty]$定义为
    \begin{equation*}
        f(x)=\left\{\begin{array}{cc}
            x\log{x}, & x\geq 0; \\
            \infty,   & x<0.
        \end{array}\right.
    \end{equation*}
    其中约定$0\log{0}=0$.则$f^*(y)=e^{y-1}$.
\end{example}

\begin{proof}
    由定义及$f$的表达式可知
    $$f^*(y)=\sup\limits_{x\geq 0}\{xy-x\log{x}\}.$$
    设$h(x)=xy-x\log{x}$.则
    \begin{equation*}
        \begin{aligned}
            h'(x)  & =y-x\log{x}-1        \\
            h''(x) & =-\frac{1}{x}<0,x>0.
        \end{aligned}
    \end{equation*}
    可知最大值点$\tilde{x}$满足$h'(\tilde{x})=0.$从而$\tilde{x}=e^{y-1}$.故
    $$f^*(y)=ye^{y-1}-e^{y-1}\cdot(y-1)=e^{y-1}.$$
\end{proof}

\section{卷积与共轭}\label{sec7:2}
卷积的概念为共轭性质的进一步分析提供了工具.

\begin{definition}\label{def7:2}
    设$f,g:\mathbb{R}^m\rightarrow\mathbb{R}$.则$f$与$g$的极小卷积(infimal convolution)为函数$f\square g:\mathbb{R}^n\rightarrow\bar{\mathbb{R}}$,定义为
    $$f\square g(x)=\inf_{y\in\mathbb{R}^n}\{f(y)+g(x-y)\}.$$
    特别地,当$g=\frac{1}{2\gamma}\| \cdot\|^2$, $\gamma\in\mathbb{R}_{++}$时.$f$与$g$的极小卷积称为$f$的Moreau信封(envelope)函数,记为$^\gamma f$.于是$^\gamma f=f\square(\frac{1}{2\gamma}\| \cdot\|^2)$.
\end{definition}

函数卷积的共轭为对应共轭函数的和.

\begin{theorem}\label{thm7:3}
    设$f,g:\mathbb{R}^n\rightarrow\mathbb{R}\cup\{+\infty\}$.则有
    $(f\square g)^*=f^*+g^*$.
\end{theorem}

\begin{proof}
    \begin{equation*}
        \begin{aligned}
            (f\square g)^*(y) & =\sup_{x\in\mathbb{R}^n}\{\langle y,x\rangle-(f\square g)(x)\}                                             \\
                              & =\sup_{x\in\mathbb{R}^n}\{\langle y,x\rangle-\inf_{z\in\mathbb{R}^n}\{f(z)+ g(x-z)\}\}                     \\
                              & =\sup_{x\in\mathbb{R}^n}\{\langle y,x\rangle+\sup_{z\in\mathbb{R}^n}\{-f(z)-g(x-z)\}\}                     \\
                              & =\sup_{z\in\mathbb{R}^n}\{\langle y,z\rangle-f(z)+\sup_{x\in\mathbb{R}^n}\{\langle y,x-z\rangle-g(x-z)\}\} \\
                              & =\sup_{z\in\mathbb{R}^n}\{\langle y,z\rangle-f(z)+g^*(y)\}                                                 \\
                              & =f^*(y)+g^*(y).
        \end{aligned}
    \end{equation*}
    证毕.
\end{proof}
~\par
反之,求和函数的共轭可由函数卷积表达.

\begin{lemma}\label{lem7:1}
    设$\varphi:\mathbb{R}^n\rightarrow\mathbb{R}\cup\{+\infty\}$为正规函数.令$r\in\mathbb{R}_{++}$, $h=\gamma\varphi-q$, $f=\varphi+\gamma^{-1}\cdot q$.其中$q=\frac{1}{2}\|\cdot\|^2$.则
    $$f^*=\gamma q-^\gamma\varphi\circ\gamma\cdot Id, h^*=\gamma(\gamma q-\varphi^*)^*-q.$$
\end{lemma}

\begin{proof}
    由共轭的定义知
    \begin{equation*}
        \begin{aligned}
            f^*(y) & =-\inf_x\{f(x)-\langle x,y\rangle\}                                               \\
                   & =-\inf_x\{\varphi (x)+\frac{1}{2\gamma}\| x\|^2-\langle x,y\rangle\}              \\
                   & =\frac{\gamma}{2}\| y\|^2-\inf_x\{\varphi(x)+\frac{1}{2\gamma}\| x-\gamma y\|^2\} \\
                   & =\frac{\gamma}{2}\| y\|^2-^\gamma \varphi(\gamma y)                               \\
                   & =(\gamma q-^\gamma \varphi\circ \gamma Id)(y).
        \end{aligned}
    \end{equation*}
    令$\psi=\gamma q-\varphi^*$.则
    \begin{equation*}
        \begin{aligned}
            \psi(y) & =\gamma q(y)-\sup_x\{\langle x,y\rangle-\varphi (x)\} \\
                    & =\inf_x\{\gamma q(y)-\langle t,y\rangle+\varphi(x)\}.
        \end{aligned}
    \end{equation*}
    于是,
    \begin{equation*}
        \begin{aligned}
            \psi^*(z) & =\sup_y\{\langle y,z\rangle-\psi(y)\}                                              \\
                      & =\sup_y\{\langle y,z\rangle+\sup_x\{-\gamma q(y)+\langle x,y\rangle-\varphi(x)\}\} \\
                      & =\sup_x\{\sup_y\{\langle y,x+z\rangle-\gamma q(y)\}-\varphi(x)\}                   \\
                      & =\sup_x\{\frac{1}{\gamma}q(x+z)-\varphi(x)\}.
        \end{aligned}
    \end{equation*}
    此处应用了$q^*=q$.因此
    \begin{equation*}
        \begin{aligned}
            \gamma \psi^*(z) & =\sup_x\{q(z)+q(x)+\langle x,z\rangle-\gamma \varphi(x)\}   \\
                             & =q(z)+\sup_x\{\langle x,z\rangle-(\gamma \varphi(x)-q(x))\} \\
                             & =q(z)+(\gamma \varphi-q)^*(z).
        \end{aligned}
    \end{equation*}
    故$h^*=\gamma \psi^*-q$.即证.
\end{proof}

\begin{lemma}\label{lem7:2}
    设$f:\mathbb{R}^n\rightarrow\bar{\mathbb{R}}$.则
    $$f=f^*\Leftrightarrow f=\frac{1}{2}\| \cdot\|^2.$$
\end{lemma}

\begin{proof}
    "$\Leftarrow$"可直接计算验证.下验证"$\Rightarrow$".记$q=\frac{1}{2}\|\cdot\|^2$.
    设$f=f^*$.则由Fenchel-Young不等式知
    $$2f(x)=f(x)+f^*(x)\geq \langle x,x\rangle=2q(x).$$
    故$f\geq q$.进而
    \begin{equation*}
        \begin{aligned}
            f(g) & =\sup_x\{\langle y,x\rangle-f(x)\}     \\
                 & \leq \sup_x\{\langle y,x\rangle-q(x)\} \\
                 & =q^*(y)=q(y).
        \end{aligned}
    \end{equation*}
    故$f\leq q$.综上可知$f=q=\frac{1}{2}\|\cdot\|^2$.
\end{proof}
~\par
在上述结果的基础上,我们给出一条关于函数及其共轭的凸性定理.该结果将是光滑与强凸对偶分析的核心工具.

\begin{theorem}\label{thm7:4}
    设$f:\mathbb{R}^n\rightarrow\mathbb{R}\cup\{+\infty\}$为正规、凸且闭的函数, $q=\frac{1}{2}\|\cdot\|^2$.则以下两条命题等价, $\gamma \in\mathbb{R}_{++}$.
    \begin{itemize}
        \item[(i)] $f^*-\gamma^{-1}q$为凸函数;
        \item[(ii)] $\gamma q-f$为凸函数.
    \end{itemize}
\end{theorem}

\begin{proof}
    (i)$\Rightarrow$(ii).记$h=f^*-\gamma^{-1}q$.由双共轭定理及\cref{lem7:1}知
    $$f=f^{**}=(h+\gamma^{-1}q)^*=\gamma q-^\gamma h\circ (\gamma Id).$$
    于是$\gamma q-f=^\gamma h\circ (\gamma Id)$.由第\ref{chap:5}章的\cref{exa5:4}知$^\gamma h$为凸函数,进而$^\gamma h\circ(\gamma Id)$为凸函数.\\
    反之,记$g=\gamma q-f$则$g$必为凸的正规闭函数.于是, $g=g^{**}$.因此, $f=\gamma q-g=\gamma q-(g^*)^*$.\\
    应用\cref{lem7:1}可知
    $$f^*=(\gamma q-(g^*)^*)^*=\frac{(\gamma g^*-q)^*+q}{\gamma}.$$
    从而, $f^*-\gamma^{-1}q=\frac{(\gamma g^*-q)^*}{\gamma}$为凸的.
\end{proof}
~\par
最后,我们以共轭函数与次梯度之间的关系结束本章的讨论.

\begin{theorem}\label{thm7:5}
    设$f:\mathbb{R}^n\rightarrow\mathbb{R}\cup\{+\infty\}$为正规的凸函数.则对$\forall x,y\in\mathbb{R}^n$,下述结论等价.
    \begin{itemize}
        \item[(i)] $\langle x,y\rangle=f(x)+f^*(y)$;
        \item[(ii)] $y\in\partial f(x).$
    \end{itemize}
    若$f$也为闭函数,则(i)与(ii)也等价于
    \begin{itemize}
        \item[(iii)] $x\in\partial f^*(y)$.
    \end{itemize}
\end{theorem}

\begin{proof}
    (ii)$\Rightarrow$(i).设$y\in\partial f(x)$.则
    $$f(u)\geq f(x)+\langle y,u-x\rangle,\forall u\in\mathbb{R}^n.$$
    等价地,
    \begin{equation}\label{eq7:2}
        f(u)-\langle y,u\rangle\geq f(x)-\langle y,x\rangle,\forall u\in\mathbb{R}^n.
    \end{equation}
    从而有$\langle y,x\rangle-f(x)\geq \sup_u\{\langle y,u\rangle-f(u)\}=f^*(y)$.
    再结合Fenchel-Young不等式可知(i)成立.\\
    反之, (i)成立时, (\ref{eq7:2})式成立.从而可推出次梯度不等式,也即$y\in\partial f(x)$.\\
    现假设$f$同时也为闭函数.则由双共轭定理知
    $$f^{**}=f.$$
    则若令$g=f^*$, (i)可等价成
    \begin{equation}\label{eq7:3}
        \langle x,y\rangle=g(y)+g^*(x) \Rightarrow\langle y,x\rangle=g(x)+g^*(y).
    \end{equation}
    由(i)与(ii)等价知, (\ref{eq7:3})等价于$x\in\partial g(y)=\partial f^*(y)$.也即, (iii)成立.证毕.
\end{proof}

\begin{problemset}
    \item 设$f:\mathbb{R}\rightarrow(-\infty,+\infty]$定义为
    \begin{equation*}
        f(x)=\left\{\begin{array}{cc}
            -\log{x}, & x>0;     \\
            \infty,   & x\leq 0.
        \end{array}\right.
    \end{equation*}
    证明: $f^*(y)=\left\{\begin{array}{cc}
            -1-\log{(-y)}, & y<0;     \\
            \infty,        & y\geq 0.
        \end{array}\right.$
    \item 设$f:\mathbb{R}^n\rightarrow(-\infty,+\infty]$定义为
    \begin{equation*}
        f(x)=\left\{\begin{array}{cc}
            \sum\limits^n_{i=1}x_i\log{x_i}, & x\in\Delta_n     \\
            \infty,                          & x\notin\Delta_n.
        \end{array}\right.
    \end{equation*}
    证明: $f^*(y)=\log{\left(\sum\limits^n_{j=1}e^{y_j}\right)}$.
    \item 设$f,g:\mathbb{R}^n\rightarrow(-\infty,+\infty]$, $\alpha\in(0,1)$.证明
    $$(\alpha f+(1-\alpha)g)^*\leq \alpha f^*+(1-\alpha)g^*.$$
    \item 设$A\in\mathbb{R}^{n\times n}$为对称正定矩阵.试求
    $$f_A(x)=\frac{1}{2}\langle x,Ax\rangle$$
    的共轭函数,并借此证明.若$A,B>0$且$A-B\geq 0$,则$B^{-1}-A^{-1}\geq 0$.
    \item 设$\Omega\subset\mathbb{R}^n$为闭凸集,令
    $$d(x,\Omega)=\min\limits_{z\in\Omega}\| x-z\|.$$
    试将函数
    $$f(x)=\| x\|^2-[d(x,\Omega)]^2$$
    表达成共轭函数的形式从而证明$f$为凸函数.
    \item 设$f,g:\mathbb{R}^n\rightarrow (-\infty,+\infty]$,令
    \begin{equation*}
        \begin{aligned}
            p & :=\inf\limits_x\{f(x)+g(x)\},       \\
            d & :=\sup\limits_y\{-f^*(y)-g^*(-y)\}.
        \end{aligned}
    \end{equation*}
    证明:弱对偶$p\geq d$成立.
\end{problemset}


\chapter{临近算子与Moreau函数}\label{chap:8}
在上章介绍卷积概念时,我们已经引入了Moreau信封函数的定义.本章我们将对该函数进行进一步的研究,首先回顾其定义.
\begin{definition}{Moreau函数}\label{def8:1}
    设$f:\mathbb{R}^n\rightarrow\mathbb{R}\cup\{+\infty\}$为正规的闭凸函数且$\gamma>0$,则$f$的Moreau信封函数定义为
    \begin{equation*}
        {^{\gamma}f}(x)=\inf_{u}\{f(u)+\frac{1}{2\gamma}\|x-u\|^2\}.
    \end{equation*}
\end{definition}

\section{临近点算子}\label{sec8:1}
为研究${^{\gamma}f}$,引入临近点算子(映射)的概念.

\begin{definition}{临近点算子}\label{def8:2}
    设$f:\mathbb{R}^n\rightarrow\mathbb{R}\cup\{+\infty\}$,则$f$的临近点算子定义为
    \begin{equation*}
        \textbf{prox}_f(x)=\mathop{\text{argmin}}_{u\in\mathbb{R}^n}\{f(u)+\frac{1}{2}\|u-x\|^2\},\forall x\in\mathbb{R}^n.
    \end{equation*}
\end{definition}

当$f$为某个闭凸集$\Omega$的示性函数时,也即$f(u)=\delta_{\Omega}(u)$,则易知
\begin{equation*}
    \begin{aligned}
        \textbf{prox}_f(x) & :=\mathop{\text{argmin}}_{u}\{\delta_{\Omega}(u)+\frac{1}{2}\|u-x\|^2\} \\
                           & =\mathop{\text{argmin}}_{u\in\Omega}\{\frac{1}{2}\|u-x\|^2\}            \\
                           & =\Pi_{\Omega}(x).
    \end{aligned}
\end{equation*}
因此,临近算子可视为投影算子的推广.此后,我们将推出一组与投影算子类似的性质.下述结果指出,对于凸函数$f$,其临近点算子的定义是合理的.

\begin{lemma}\label{lem8:1}
    设$f:\mathbb{R}^n\rightarrow\mathbb{R}\cup\{+\infty\}$为正规、凸且闭的函数,则$\textbf{prox}_{f}(x)$存在且唯一.
\end{lemma}

\begin{proof}
    记$\tilde{f}(u,x)=f(u)+\frac{1}{2}\|u-x\|^2$,
    令$\mu=\inf\limits_u\tilde{f}(u,x)$,则存在$\{u_k\}\subset\mathbb{R}^n$使得$\lim_{k\rightarrow\infty}\tilde{f}(u_k,x)=\mu, $\\
    因此,对$\varepsilon>0,\exists~ k_0$, s.t.当$k\geq k_0$时,
    \begin{equation}\label{eq8:1}
        \tilde{f}(u_k,x)\leq \mu+\varepsilon.
    \end{equation}
    取$x_0$, s.t. $~\partial f(x_0)\neq\emptyset$,再令$g\in \partial f(x_0)$,据$f$的凸性或次梯度不等式知
    \begin{equation*}
        f(u)\geq f(x_0)+\langle g,u-x_0\rangle.
    \end{equation*}
    结合(\ref{eq8:1})式可得:
    \begin{equation*}
        \mu+\varepsilon\geq f(u_k)+\frac{1}{2}\|u_k-x\|^2\geq f(x_0)+\langle g,u_k-x_0\rangle+\frac{1}{2}\|u_k-x\|^2.
    \end{equation*}
    从而$\{u_k\}$为有界序列,因而必有收敛子列,于是可设
    \begin{equation*}
        \lim_{i\rightarrow\infty}u_{k_i}=\bar{u}.
    \end{equation*}
    由$f$为闭的因而为下半连续的,可知
    \begin{equation*}
        \begin{aligned}
            \mu & =\lim_{i\rightarrow\infty}\tilde{f}(u_{k_i},x)
            =\lim_{i\rightarrow\infty}\inf (f(u_{k_i})+\frac{1}{2}\|u_{k_i}-x\|^2) \\
                & \geq f(\bar{u})+\frac{1}{2}\|\bar{u}-x\|^2
            \geq \mu.
        \end{aligned}
    \end{equation*}
    因此$\bar{u}$为$\tilde{f}(u,x)$的最小值点,也即证明了$\textbf{prox}_f(x)$的存在性.\\
    反设存在$\hat{u}$, s.t. $~\hat{u}\neq\bar{u}$且$\tilde{f}(\hat{u},x)=\mu$,考虑$z=\frac{1}{2}(\hat{u}+\bar{u})$,再次运用下列公式(第\ref{chap:3}章\cref{thm3:1}的证明),
    \begin{equation*}
        \|z-x\|^2=\frac{1}{2}\|\hat{u}-x\|^2+\frac{1}{2}\|\bar{u}-x\|^2-\frac{1}{4}\|\bar{u}-\hat{u}\|^2.
    \end{equation*}
    以及$f$的凸性可知
    \begin{equation*}
        \begin{aligned}
            f(z)+\frac{1}{2} \|z-x\|^2
             & \leq \frac{1}{2}f(\hat{u})+\frac{1}{4}\|\hat{u}-x\|^2+\frac{1}{2}f(\bar{u})+\frac{1}{4}\|\bar{u}-x\|^2-\frac{1}{8}\|\bar{u}-\hat{u}\|^2\nonumber \\
             & <\mu.
        \end{aligned}
    \end{equation*}
    矛盾,故$\textbf{prox}_f(x)$是唯一的!
\end{proof}

\begin{example}\label{exa8:1}
    设$f:\mathbb{R}^n\rightarrow\mathbb{R}$定义为
    $$f(x)=\frac{1}{2}x^TAx+b^Tx+c.$$
    其中$A\in\mathbb{R}^{n\times n}$为半正定矩阵, $b\in\mathbb{R}^n$, $c\in\mathbb{R}$.则
    $$\textbf{prox}_f(x)=(A+I)^{-1}(x-b).$$
\end{example}

\begin{proof}
    由定义及\cref{lem8:1}, $\textbf{prox}_f(x)$为下述凸优化问题的唯一解
    $$\min\limits_u\{h(u):=\frac{1}{2}u^TAu+b^Tu+c+\frac{1}{2}\| u-x\|^2\}.$$
    由第\ref{chap:11}章的最优化条件,唯一解满足方程$\nabla h(u)=0$,也即,
    $$Au+b+u-x=0.$$
    从而$\textbf{prox}_f(x)=u=(A+I)^{-1}(x-b)$.
\end{proof}

\begin{example}\label{exa8:2}
    设$f:\mathbb{R}\rightarrow\mathbb{R}$定义为$f(x)=\lambda|x|$.则
    $$\textbf{prox}_f(x)=[|x|-\lambda]_+\text{sgn}(x).$$
    其中$[t]_+=\left\{\begin{array}{cc}t,&t>0\\0,&t\leq 0\end{array}\right.$, $\lambda>0$.上述$\textbf{prox}_f(x)$也称为软阈值算子.
\end{example}

\begin{figure}[!htb]\label{fg8:1}
    \centering
    \includegraphics[width=0.35\textwidth]{image/fg17.png}
\end{figure}

\begin{proof}
    $\textbf{prox}_f(x)$为下述问题的唯一解.
    $$\bar{u}=\mathop{\text{argmin}}\limits_u h(u):=\left\{\begin{array}{cc}
            \lambda u+\frac{1}{2}(u-x)^2,  & u>0;     \\
            -\lambda u+\frac{1}{2}(u-x)^2, & u\leq 0.
        \end{array}\right.$$
    若$\bar{u}>0$,则$\lambda+\bar{u}-x=0$.从而$\bar{u}=x-\lambda$.因此,
    当$x>\lambda$时, $\textbf{prox}_f(x)=\bar{u}=x-\lambda$.\\
    同理,若$\bar{u}<0$则当$x<-\lambda$时, $\textbf{prox}_f(x)=x+\lambda$.而当$|x|\leq \lambda$时, $\bar{u}=0=\textbf{prox}_f(x)$.即证.
\end{proof}
~\par
如果说临近算子推广了投影算子,那么下述结果推广了投影定理.

\begin{theorem}{广义投影定理}\label{thm8:1}
    设$f:\mathbb{R}^n\rightarrow\mathbb{R}\cup\{+\infty\}$为正规的闭凸函数,则$p=\textbf{prox}_f(x)$当且仅当
    \begin{equation}\label{eq8:2}
        \langle y-p,x-p\rangle
        \leq
        f(y)-f(p),\forall y\in\mathbb{R}^n
    \end{equation}
\end{theorem}

\begin{proof}
    设$p=\textbf{prox}_f(x)$,往证(\ref{eq8:2})式.记
    \begin{equation*}
        \omega(\alpha)=\alpha y+(1-\alpha)p,\alpha\in (0,1),
    \end{equation*}
    则有
    \begin{equation*}
        \begin{aligned}
            f(p)
             & \leq f(\omega(\alpha))+
            \frac{1}{2}\|\omega(\alpha)-x\|^2-\frac{1}{2}\|p-x\|^2                                        \\
             & \leq \alpha f(y)+(1-\alpha)f(p)-\alpha \langle y-p,x-p\rangle+\frac{\alpha^2}{2}\|y-p\|^2.
        \end{aligned}
    \end{equation*}
    因此, $\langle y-p,x-p\rangle\leq
        f(y)-f(p)+\frac{\alpha}{2}\|y-p\|^2$.\\
    令$\alpha\rightarrow 0_+$,即可知(\ref{eq8:2})式成立,反之,若(\ref{eq8:2})式成立,则有
    \begin{equation*}
        \begin{aligned}
            f(p)+\frac{1}{2}\|x-p\|^2
             & \leq
            f(y)+\frac{1}{2}\|x-p\|^2+\langle p-y,x-p\rangle+\frac{\alpha}{2}\|y-p\|^2 \\
             & \leq
            f(y)+\frac{1}{2}\|x-y\|^2,
        \end{aligned}
    \end{equation*}
    从而$p=\textbf{prox}_f(x)$.证毕!
\end{proof}
~\par
在\cref{thm8:1}中,若令$f=\delta_{\Omega}$,其中$V$为闭凸集,则(\ref{eq8:2})等价于$p\in \Omega$且$\langle y-p,x-p\rangle\leq0,\forall y\in\Omega$.另一方面,我们已知$\textbf{prox}_f(x)=\Pi_{\Omega}(x)$,因此,\cref{thm8:1}确为投影定理的推广.

\begin{corollary}\label{cor8:1}
    设$f$为正规的闭凸函数,并记$X=\mathop{\text{argmin}} f$,则
    \begin{equation*}
        \text{Fix Prox}_f = X.\nonumber
    \end{equation*}
\end{corollary}

\begin{proof}
    任取$x\in \text{Fix~Prox}_f$,则$p=\textbf{prox}_f(x)=x$.
    由广义投影定理知, $\forall y\in\mathbb{R}^n$,
    \begin{equation*}
        0=\langle y-p,x-p\rangle
        \leq f(y)-f(p)=f(y)-f(x),
    \end{equation*}
    从而$x\in X$.
    反之,设$x\in X$,则$\forall y\in\mathbb{R}^n$有$f(y)\geq f(x)$.令$p=\textbf{prox}_f(x)$,再由广义投影知
    \begin{equation*}
        f(y)-f(p)\geq \langle y-p,x-p\rangle,\forall y\in\mathbb{R}^n,
    \end{equation*}
    在上式中令$y=x$可知
    \begin{equation*}
        0\geq f(x)-f(p)\geq \langle y-p,x-p\rangle,
    \end{equation*}
    从而, $p=x=\textbf{prox}_f(x)$,也即$x\in \text{Fix}~ \textbf{prox}_f$.证毕!
\end{proof}

\begin{corollary}{非膨胀性}\label{cor8:2}
    设$f$为正规闭凸函数,则有
    \begin{equation}\label{eq8:3}
        \|\textbf{prox}_f(x)-\textbf{prox}_f(y)\|^2
        \leq
        \langle \textbf{prox}_f(x)-\textbf{prox}_f(y),x-y\rangle.
    \end{equation}
    特别地有
    \begin{equation}\label{eq8:4}
        \|\textbf{prox}_f(x)-\textbf{prox}_f(y)\|\leq\|x-y\|.
    \end{equation}
\end{corollary}

\begin{proof}
    令$p=\textbf{prox}_f(x),q=\textbf{prox}_f(y)$.则由(\ref{eq8:2})式可知
    \begin{equation*}
        \begin{aligned}
            \langle q-p,x-p\rangle\leq f(q)-f(p), \\
            \langle p-q,y-q\rangle\leq f(p)-f(q).
        \end{aligned}
    \end{equation*}
    易知$p,q\in \text{dom} (f)$,上两式相加可得
    \begin{equation*}
        \langle p-q,y-q+p-x\rangle\leq0,
    \end{equation*}
    从而得$\|p-q\|^2\leq \langle p-q,x-y\rangle$,
    (\ref{eq8:4})式由(\ref{eq8:3})式及Cauchy-Schwarz不等式可得,证毕!
\end{proof}

\section{Moreau函数的微分性质}\label{sec8:2}
本节主要基于广义投影定理证明Moreau函数的可微性.
\begin{theorem}\label{thm8:2}
    设$f:\mathbb{R}^n\rightarrow\mathbb{R}\cup\{+\infty\}$为正规的闭凸函数, $\gamma\in\mathbb{R}_{++}$,则${^{\gamma}f}:\mathbb{R}^n\rightarrow\mathbb{R}$为可微的且其梯度为
    \begin{equation*}
        \nabla {^{\gamma}f}=\gamma^{-1}(Id-\textbf{prox}_{{^{\gamma}f}}).
    \end{equation*}
\end{theorem}

\begin{proof}
    设$x,y\in \mathbb{R}^n$,且$y\neq x$,令$p=\textbf{prox}_{{^{\gamma}f}}(x),q=\textbf{prox}_{{^{\gamma}f}}(y)$.\\
    首先,由${^{\gamma}f}$及$\textbf{prox}_{{^{\gamma}f}}$的定义可知
    \begin{equation*}
        \begin{aligned}
            {^{\gamma}f}(x) &
            =f(\textbf{prox}_{{^{\gamma}f}}(x))+\frac{1}{2\gamma}\|x-\textbf{prox}_{{^{\gamma}f}}(x)\|^2 \\
                            & =f(p)+\frac{1}{2\gamma}\|x-p\|^2.
        \end{aligned}
    \end{equation*}
    同理, ${^{\gamma}f}(y)=f(q)+\frac{1}{2\gamma}\|y-q\|^2$.应用广义投影定理可知
    \begin{equation}\label{eq8:5}
        \begin{aligned}
            {^{\gamma}f}(y)-{^{\gamma}f}(x)
             & =
            f(q)-f(p)+\frac{1}{2\gamma}(\|y-q\|^2-\|x-p\|^2)               \\
             & \geq
            \frac{1}{2\gamma}(2\langle q-p,x-p\rangle+\|y-q\|^2-\|x-p\|^2) \\
             & =
            \frac{1}{2\gamma}(\|y-q-x+p\|^2+2\langle y-x,x-p\rangle)       \\
             & \geq
            \frac{1}{\gamma}\langle y-x,x-p\rangle.
        \end{aligned}
    \end{equation}
    类似地,
    \begin{equation}\label{eq8:6}
        {^{\gamma}f}(y)-{^{\gamma}f}(x)\leq \frac{1}{\gamma}\langle y-x,y-q\rangle.
    \end{equation}
    于是,
    \begin{equation*}
        \begin{aligned}
            0 & \mathop{\leq}\limits^{\text{(\ref{eq8:5})}} {^{\gamma}f}(y)-{^{\gamma}f}(x)-\frac{1}{\gamma}\langle y-x,x-p\rangle        \\
              & \mathop{\leq}\limits^{\text{(\ref{eq8:6})}} \frac{1}{\gamma}\langle y-x,y-q\rangle-\frac{1}{\gamma}\langle y-x,x-p\rangle \\
              & =\frac{1}{\gamma}\|y-x\|^2-\frac{1}{\gamma}\langle y-x,q-p\rangle                                                         \\
              & \mathop{\leq}\limits^{\text{(\ref{eq8:3})}} \frac{1}{\gamma}\|y-x\|^2-\frac{1}{\gamma}\|p-q\|^2                           \\
              & \leq\frac{1}{\gamma}\|y-x\|^2.
        \end{aligned}
    \end{equation*}
    令$y\rightarrow x$时可知${^{\gamma}f}(y)-{^{\gamma}f}(x)-\langle\frac{x-p}{\gamma},y-x\rangle\rightarrow 0$,故${^{\gamma}f}(y)$在$x$处可微,且$\nabla {^{\gamma}f}=\frac{Id-\textbf{prox}_{{^{\gamma}f}}}{\gamma}$,即证!
\end{proof}

\begin{corollary}\label{cor8:3}
    设$\varphi:\mathbb{R}^n\rightarrow\mathbb{R}\cup\{+\infty\}$为正规的闭凸函数, $\gamma\in\mathbb{R}_{++}, f=\varphi+\gamma^{-1}q$,其中$q=\frac{1}{2}\|\cdot\|^2$,则$f^*$可微.
\end{corollary}

\begin{proof}
    由第\ref{chap:7}章的\cref{lem7:1}知$f^*=\gamma q-^{\gamma}\varphi\circ\gamma\cdot Id$,而由\cref{thm8:2}知$^{\gamma}\varphi$可微,故$f^*$可微.
\end{proof}

\begin{corollary}\label{cor8:4}
    设$f$为正规闭凸函数,则$\forall \gamma>0$,均有
    \begin{equation*}
        \mathop{\text{argmin}}~{^{\gamma}f}=\mathop{\text{argmin}} f.
    \end{equation*}
\end{corollary}

\begin{proof}
    已知${^{\gamma}f}$为凸函数,则
    \begin{equation}\label{eq8:7}
        \mathop{\text{argmin}}~{^{\gamma}f}=\{x:\nabla {^{\gamma}f}(x)=0\}\triangleq S.
    \end{equation}
    事实上,由次梯度不等式
    \begin{equation*}
        {^{\gamma}f}(y)\geq {^{\gamma}f}(x)+\langle \nabla{^{\gamma}f}(x),y-x\rangle,\forall y.
    \end{equation*}
    可知当$\nabla{^{\gamma}f}(x)=0$时, ${^{\gamma}f}(y)\geq{^{\gamma}f}(x)$,从而$S\subset\mathop{\text{argmin}}~{^{\gamma}f}$.\\
    反之, $x\in\mathop{\text{argmin}}~ {^{\gamma}f}$则必有$\nabla{^{\gamma}f}(x)=0$,证明参见第\ref{chap:6}章中\ref{sec6:3}最速下降方向的分析.于是(\ref{eq8:7})式成立.而
    \begin{equation*}
        \begin{aligned}
            \nabla{^{\gamma}f}(x)=0
             & \Leftrightarrow
            (Id-\textbf{prox}_{{^{\gamma}f}})(x)=0 \\
             & \Leftrightarrow
            x\in\text{Fix Prox}_{{^{\gamma}f}}=\mathop{\text{argmin}} {^{\gamma}f}=\mathop{\text{argmin}} f.\text{(应用了\cref{cor7:1})}
        \end{aligned}
    \end{equation*}
    证毕.
\end{proof}

\begin{example}\label{exa8:3}
    设$f:\mathbb{R}^n\rightarrow\mathbb{R}$定义为$f(x)=\| x\|$.则
    $$^\gamma f(x)=\left\{\begin{array}{cc}
            \frac{1}{2\gamma}\| x\|^2, & \| x\|\leq \gamma; \\
            \| x\|-\frac{\gamma}{2},   & \| x\|>\gamma.
        \end{array}\right.$$
\end{example}

\begin{proof}
    由本章练习题2知$\textbf{prox}_{\gamma f}(x)=\textbf{prox}_{\gamma\|\cdot\|}(x)=\left(1-\frac{\gamma}{\max\{\| x\|,\gamma\}}\right)x$.\\
    因此,
    \begin{equation*}
        \begin{aligned}
            ^\gamma f(x) & =\inf\limits_u\{f(u)+\frac{1}{2\gamma}\| x-u\|^2\}                                                                  \\
                         & =\frac{1}{\gamma}\inf\limits_u\{\gamma f(u+\frac{1}{2}\| x-u\|^2)\}                                                 \\
                         & =\frac{1}{\gamma}\left(\gamma f(\textbf{prox}_{\gamma f}(x))+\frac{1}{2}\| x-\textbf{prox}_{\gamma f}(x)\|^2\right) \\
                         & =\| \textbf{prox}_{\gamma f}(x)\|+\frac{1}{2\gamma}\| x-\textbf{prox}_{\gamma f}(x)\|^2                             \\
                         & =\left\{\begin{array}{cc}
                                       \frac{1}{2\gamma}\| x\|^2, & \| x\|\leq \gamma; \\
                                       \| x\|-\frac{\gamma}{2},   & \| x\|>\gamma.
                                   \end{array}\right.
        \end{aligned}
    \end{equation*}
\end{proof}
~\par
该例中推导出的Moreau函数$^\gamma f(x)$就是著名的Huber函数$H_\gamma(x)$,它提供了范数函数的光滑逼近.

\begin{figure}[!htb]\label{fg8:2}
    \centering
    \includegraphics[width=0.5\textwidth]{image/fg18.png}
\end{figure}

运用\cref{thm8:2},可知
\begin{equation*}
    \begin{aligned}
        \nabla H_{\gamma}(x) & =\nabla{^\gamma f}(x)=\gamma^{-1}(Id-\textbf{prox}_{\gamma f})(x)                    \\
                             & =\frac{1}{\gamma}(x-\textbf{prox}_{\gamma f}(x))                                     \\
                             & =\frac{1}{\gamma}\left(x-\left(1-\frac{\gamma}{\max\{\| x\|,\gamma\}}\right)x\right) \\
                             & =\left\{\begin{array}{cc}
                                           \frac{1}{\gamma}x, & \| x\|\leq \gamma; \\
                                           \frac{x}{\| x\|},  & \| x\|>\gamma.
                                       \end{array}\right.
    \end{aligned}
\end{equation*}

\begin{example}\label{exa8:4}
    设$\Omega\subset\mathbb{R}^n$为非空的闭凸集,令
    $$f(x)=\frac{1}{2}[d(x,\Omega)]^2.$$
    则$\nabla f(x)=x-\Pi_{\Omega}(x)$.
\end{example}

\begin{proof}
    \begin{equation*}
        \begin{aligned}
            f(x) & =\frac{1}{2}[d(x,\Omega)]^2=\min\limits_{y\in\Omega}\frac{1}{2}\| x-y\|^2    \\
                 & =\min\limits_y\delta_{\Omega}(y)+\frac{1}{2}\| x-y\|^2={^1\delta}_\Omega(x).
        \end{aligned}
    \end{equation*}
    由\cref{thm8:2}可知, $\nabla f(x)=\nabla {^1\delta}_\Omega(x)=(Id-\textbf{prox}_{\delta\Omega})(x)=x-\Pi_\Omega(x)$.
\end{proof}

\begin{problemset}
    \item 设$f:\mathbb{R}^n\rightarrow\mathbb{R}$定义为$f(x)=\lambda\| x\|_1$, $\lambda\geq 0$.证明: $\textbf{prox}_f(x)=[|x|-\lambda e]_+\odot \text{sgn}(x)$.其中$\odot$表示两向量对应元素相乘.
    \item 设$g:\mathbb{R}\rightarrow(-\infty,+\infty]$为正规闭凸函数,且$$\text{dom}(g)=[0,+\infty).$$
        令$f:\mathbb{R}^n\rightarrow(-\infty,+\infty]$定义为$f(x)=g(\| x\|)$.证明:
    $$\textbf{prox}_f(x)=\left\{\begin{array}{cc}
        \textbf{prox}_g(\| x\|)\frac{x}{\| x\|},        & x\neq 0; \\
        \{u\in\mathbb{R}^n:\| u\|=\textbf{prox}_g(0)\}, & x=0.
    \end{array}\right.$$
        特别地,
    $$\textbf{prox}_{\lambda\|\cdot\|}(x)=\left(1-\frac{\lambda}{\max\{\| x\|,\lambda\}}\right)x.$$
\end{problemset}

\chapter{光滑与强凸}\label{chap:9}
函数的光滑性与强凸性是一阶算法(次)线性收敛性分析的全新的必备工具,本章我们将基于凸函数的等价定义以及共轭函数来研究这两个概念.

\section{基本定义}\label{sec9:1}
\begin{definition}\label{def9:1}
    设$f:\mathbb{R}^n\rightarrow\mathbb{R}$为可微的函数,若存在常数$L>0$使对任意$x,y\in\mathbb{R}^n$均有:
    \begin{equation}\label{eq9:1}
        f(y)\leq f(x)+\langle \nabla f(x),y-x\rangle+\frac{L}{2}\|y-x\|^2,
    \end{equation}
    则称$f$为$L$-光滑的(也称为$L$-梯度Lipschitz连续的);\\
    若存在常数$\mu>0$,使对任意$x,y\in\mathbb{R}^n$均有:
    \begin{equation}\label{eq9:2}
        f(y)\geq f(x)+\langle \nabla f(x),y-x\rangle+\frac{\mu}{2}\|y-x\|^2,
    \end{equation}
    则称$f$为$\mu$-强凸的.其中$L$称为光滑参数,而$\mu$称为强凸参数.
\end{definition}

该定义可用函数的凸性进行表述.

\begin{lemma}\label{lem9:1}
    设$f:\mathbb{R}^n\rightarrow\mathbb{R}$可微, $q=\frac{1}{2}\|\cdot\|^2$,则
    \begin{itemize}
        \item[(i)] $f$为$L$光滑的当且仅当$Lq-f$为凸的;
        \item[(ii)] $f$为$\mu$强凸的当且仅当$f-\mu q$为凸的.
    \end{itemize}
\end{lemma}

\begin{proof}
    仅证(i), (ii)类似可证.\\
    首先观察到
    \begin{equation*}
        \frac{1}{2}\|y-x\|^2=q(y)-(q(x)+\langle\nabla q(x),y-x\rangle).
    \end{equation*}
    代入(\ref{eq9:1})式并重新组合可得
    \begin{equation*}
        (f-Lq)(y)\leq (f-Lq)(x)+\langle \nabla(f-Lq)(x),y-x\rangle,
    \end{equation*}
    令$g=Lq-f$,则上式等同于
    \begin{equation*}
        g(y)\geq g(x)+\langle \nabla g(x),y-x\rangle,
    \end{equation*}
    也即$g$为凸函数.即证!
\end{proof}

\begin{example}\label{exa9:1}
    设$f:\mathbb{R}^n\rightarrow\mathbb{R}$定义为$f(x)=\frac{1}{2}x^TAx+b^Tx+c$,其中$A\in\mathbb{R}^{n\times n}$, $b\in\mathbb{R}^n$, $c\in\mathbb{R}$分别为给定的对称矩阵、向量与实数.则$f$为$L=\| A\|$-光滑的.
\end{example}

\begin{proof}
    据\cref{lem9:1},只需验证$h(x)=\frac{1}{2}\| A\|^2\cdot\| x\|^2-f(x)$为凸函数即可.\\
    事实上, $h(x)=\frac{1}{2}x^T(\| A\|\cdot I-A)x-b^Tx-c$.\\
    由于$\nabla^2 h(x)=\| A\|\cdot I-A\succeq 0$.可知$h$为凸函数.
\end{proof}

\begin{example}\label{exa9:2}
    设$\Omega\subset\mathbb{R}^n$为非空闭凸集.定义
    $$f(x)=\frac{1}{2}[d(x,\Omega)]^2.$$
    则$f$为$1$-光滑函数.
\end{example}

\begin{proof}
    据\cref{lem9:1}.只需验证
    $$h(x)=\frac{1}{2}\| x\|^2-\frac{1}{2}[d(x,\Omega)]^2$$
    为凸函数.该结论即为第\ref{chap:7}章的练习题5.
\end{proof}

\section{光滑性的等价刻画}\label{sec9:2}
由于光滑性可等价于函数的凸性,而函数的凸性有不同的等价条件,据此,可得到光滑性的等价刻画.

\begin{theorem}\label{thm9:1}
    设$f:\mathbb{R}^n\rightarrow\mathbb{R}$为可微的函数,则$f$的$L$光滑等价于下述条件之一:
    \begin{enumerate}[(i)]
        \item $f(\lambda x+(1-\lambda)y)\geq \lambda f(x)+(1-\lambda)f(y)-\frac{L}{2}\lambda(1-\lambda)\|x-y\|^2,\forall x,y\in\mathbb{R}^n,\lambda\in (0,1);$
        \item \begin{equation}\label{eq9:3}
                  \langle\nabla f(x)-\nabla f(y),x-y\rangle\leq L\|x-y\|^2;
              \end{equation}
        \item 若$f\in C^2$,则
              \begin{equation}\label{eq9:4}
                  \nabla^2f(x)\leq L.
              \end{equation}
    \end{enumerate}
\end{theorem}

\begin{proof}
    结合第\ref{chap:5}章的\cref{thm5:2}与第\ref{chap:9}章的\cref{lem9:1}的(i)可得出.
\end{proof}
~\par
另外,第\ref{chap:7}章的\cref{thm7:4}指出$f^*-L^{-1}q$的凸性等价于$Lq-f$的凸性,据此可得到一组刻画光滑性的共轭函数的条件,但需要额外地假设共轭函数的可微性.

\begin{lemma}\label{lem9:2}
    设$f:\mathbb{R}^n\rightarrow\mathbb{R}$为(正规的闭凸函数)可微凸函数且其共轭函数$f^*$亦可微,则$f$的光滑性等价于下述条件之一:\begin{enumerate}[(i)]
        \item $f^*(\lambda u+(1-\lambda)v)\leq \lambda f^*(u)+(1-\lambda)f^*(v)-\frac{1}{2L}\lambda(1-\lambda)\|u-v\|^2,\forall u,v\in\mathbb{R}^n, \lambda\in (0,1);$
        \item \begin{equation}\label{eq9:5}
                  \langle \nabla f^*(u)-\nabla f^*(v), u-v\rangle \geq \frac{1}{L}\|u-v\|^2, \forall u,v\in\mathbb{R}^n;
              \end{equation}
        \item \begin{equation}\label{eq9:6}
                  f^*(u)\geq f^*(v)+\langle \nabla f^*(v), u-v\rangle+\frac{1}{2L}\|u-v\|^2, \forall u,v\in\mathbb{R}^n;
              \end{equation}
        \item 假设$f^*\in C^2$,则
              \begin{equation}\label{eq9:7}
                  \nabla^2f^*(u)\geq L^{-1},\forall u\in\mathbb{R}^n.
              \end{equation}
    \end{enumerate}
\end{lemma}

\begin{proof}
    $f$的可微性可推出$f$的正规闭性,结合第\ref{chap:7}章的\cref{thm7:4}、第\ref{chap:9}章的\cref{lem9:1}的(i)以及第\ref{chap:5}章的\cref{thm5:2}可证!
\end{proof}
~\par
下述结果将这些共轭函数相关的条件转换成函数$f$的条件.

\begin{theorem}\label{thm9:2}
    设$f$为可微凸函数,对于$\forall x,y\in\mathbb{R}^n$,则$f$的$L$-光滑性等价于下述条件之一:
    \begin{enumerate}[(i)]
        \item \begin{equation}\label{eq9:8}
                  \langle \nabla f(x)-\nabla f(y), x-y\rangle \geq \frac{1}{L}\|\nabla f(x)-\nabla f(y)\|^2,
              \end{equation}
        \item \begin{equation}\label{eq9:9}
                  f(y)\geq f(x)+\langle \nabla f(x), y-x\rangle+\frac{1}{2L}\|\nabla f(x)-\nabla f(y)\|^2,
              \end{equation}
        \item \begin{equation}\label{eq9:10}
                  \|\nabla f(x)-\nabla f(y)\|\leq L\|x-y\|.
              \end{equation}
    \end{enumerate}
\end{theorem}

\begin{proof}
    先假设$f^*$可微,由\cref{lem9:2}知$L$-光滑$\Leftrightarrow$ (\ref{eq9:5}) $\Leftrightarrow$ (\ref{eq9:6}).\\
    令$x=\nabla f^*(u)$, $y=\nabla f^*(v)$,则由第\ref{chap:7}章中的\cref{thm7:5}可知$u=\nabla f(x)$, $v=\nabla f(y)$且
    \begin{equation*}
        \begin{aligned}
            f^*(u)+f(x)=\langle u,x\rangle=\langle \nabla f(x),x\rangle, \\
            f^*(v)+f(y)=\langle v,y\rangle=\langle \nabla f(y),y\rangle.
        \end{aligned}
    \end{equation*}
    由此可将(\ref{eq9:5})式写成(\ref{eq9:8})式, (\ref{eq9:6})式写成(\ref{eq9:9})式.若$f$是$L$-光滑,则(\ref{eq9:8})成立.\\
    将Cauchy-Schwarz不等式应用于(\ref{eq9:8})式可推出(\ref{eq9:10})式.反之,若(\ref{eq9:10})式成立,则有
    \begin{equation*}
        \begin{aligned}
            \langle \nabla f(x)-\nabla f(y),x-y\rangle
            \leq \|\nabla f(x)-\nabla f(y)\|\cdot\|x-y\|
            \leq L\|x-y\|^2,
        \end{aligned}
    \end{equation*}
    也即(\ref{eq9:3})式成立,从而据\cref{thm9:1}知$f$为$L$-光滑.\\
    现去掉$f^*$可微的条件,为此,令$f_{\varepsilon}=f+\varepsilon\cdot q$,其中$\varepsilon>0$为参数, $q=\frac{1}{2}\|\cdot\|^2$.在第\ref{chap:8}章的\cref{cor8:3}中已证明$f^*_{\varepsilon}$可微,下面将通过论证如下逻辑链来完成证明:\\
    (\ref{eq9:1}) $L$-光滑性 $\Rightarrow$ (\ref{eq9:9}) $\Rightarrow$(\ref{eq9:8}) $\Rightarrow$(\ref{eq9:10})
    $\Rightarrow L$-光滑性(\ref{eq9:1}).\\
    事实上, (\ref{eq9:1}) $\Rightarrow Lq-f$为凸$\Rightarrow (L+\varepsilon)q-f_{\varepsilon}$为凸,由\cref{lem9:1}知$f_{\varepsilon}$必为$(L+\varepsilon)$光滑的,因此(\ref{eq9:9})对$f_{\varepsilon}$成立:
    \begin{equation*}
        f_{\varepsilon}(y)\geq f_{\varepsilon}(x)+
        \langle \nabla f_{\varepsilon}(x),y-x\rangle
        +\frac{1}{2(L+\varepsilon)}\|\nabla f_{\varepsilon}(x)-\nabla f_{\varepsilon}(y)\|^2,\nonumber
    \end{equation*}
    在上式中令$\varepsilon\rightarrow 0$,可知(\ref{eq9:9})式成立,
    从(\ref{eq9:9})式出发可得
    \begin{equation*}
        f(y)\geq f(x)+
        \langle \nabla f(x),y-x\rangle
        +\frac{1}{2L}\|\nabla f(x)-\nabla f(y)\|^2,\nonumber
    \end{equation*}
    \begin{equation*}
        f(x)\geq f(y)+
        \langle \nabla f(y),x-y\rangle
        +\frac{1}{2L}\|\nabla f(y)-\nabla f(x)\|^2,\nonumber
    \end{equation*}
    上两式相加,可推出(\ref{eq9:8})式成立.
    而结合(\ref{eq9:8})式与Cauchy-Schwarz不等式可得到(\ref{eq9:10})式,只需证(\ref{eq9:10})$\Rightarrow$(\ref{eq9:1}).\\
    由微积分基本定理:
    \begin{equation*}
        f(y)-f(x)=\int_{0}^1\langle \nabla f(x+t(y-x)),y-x\rangle dt.\nonumber
    \end{equation*}
    因此,
    \begin{equation*}
        \begin{aligned}
             & ~~~~f(y)-f(x)-\langle \nabla f(x),y-x\rangle                 \\
             & =
            \int_{0}^1 \langle \nabla f(x+t(y-x))-\nabla f(x),y-x\rangle dt \\
             & \leq
            \int_{0}^1\|\nabla f(x+t(y-x))-\nabla f(x)\|\cdot \|y-x\|dt     \\
             & \leq
            \int_0^1 tL\|y-x\|^2dt=\frac{L}{2}\|y-x\|^2.
        \end{aligned}
    \end{equation*}
    最后一个不等式应用了(\ref{eq9:10})式,至此可知(\ref{eq9:1})式成立,证毕!
\end{proof}
~\par
注意到(\ref{eq9:8})式和(\ref{eq9:9})式均蕴含了$f$的凸性,因此我们有如下推论.

\begin{corollary}\label{cor9:1}
    设$f$可微,则$f$为凸的且$L$-光滑的当且仅当(\ref{eq9:8})式或(\ref{eq9:9})式成立.
\end{corollary}

\section{强凸性的等价刻画}\label{sec9:3}
\begin{theorem}\label{thm9:3}
    设$f:\mathbb{R}^n\rightarrow\mathbb{R}$为可微凸函数,对于$\forall x,y\in\mathbb{R}^n$,则$f$的$\mu$-强凸性等价于下述条件之一:
    \begin{enumerate}[(i)]
        \item $f(\lambda x+(1-\lambda)y)\leq \lambda f(x)+(1-\lambda)f(y)-\frac{\mu}{2}\lambda(1-\lambda)\|x-y\|^2, \lambda\in [0,1], $
        \item \begin{equation}\label{eq9:11}
                  \langle \nabla f(x)-\nabla f(y), x-y\rangle \geq \mu\|x-y\|^2,
              \end{equation}
        \item 假设$f\in C^2$,则
              \begin{equation*}
                  \nabla^2f(x)\geq \mu.
              \end{equation*}
    \end{enumerate}
\end{theorem}

\begin{lemma}\label{lem9:3}
    设$f$为可微的凸函数且$f^*$可微,对于$\forall u,v\in\mathbb{R}^n$,则$f$为$\mu$-强凸的当且仅当下述条件之一成立:
    \begin{enumerate}[(i)]
        \item $f^*(\lambda u+(1-\lambda)v)\geq \lambda f^*(u)+(1-\lambda)f^*(v)-\frac{1}{2\mu}\lambda(1-\lambda)\|u-v\|^2,\lambda\in [0,1], $
        \item \begin{equation}\label{eq9:12}
                  \langle \nabla f^*(u)-\nabla f^*(v), u-v\rangle \leq \frac{1}{\mu}\|u-v\|^2,
              \end{equation}
        \item \begin{equation}\label{eq9:13}
                  f^*(u)\leq f^*(v)+\langle \nabla f^*(v), u-v\rangle+\frac{1}{2\mu}\|u-v\|^2,
              \end{equation}
        \item 假设$f^*\in C^2$,则
              \begin{equation*}
                  \nabla^2f^*(u)\leq\mu^{-1}.
              \end{equation*}
    \end{enumerate}
\end{lemma}

\begin{proof}
    应用第\ref{chap:7}章中的\cref{thm7:4}以及本章\cref{lem9:1}知
    \begin{equation*}
        \begin{aligned}
            f\text{强凸} & \Leftrightarrow f-\mu q=(f^*)^*-\mu q\text{凸} \\
                         & \Leftrightarrow \mu^{-1}q-f^*\text{凸}.
        \end{aligned}
    \end{equation*}
    将凸的等价条件应用于$\mu^{-1}q-f^*$可完成证明.
\end{proof}
~\par
类似于\cref{thm9:2}.
\begin{theorem}\label{thm9:4}
    设$f$可微,对于$\forall x,y\in\mathbb{R}^n$,则$f$为$\mu$-强凸的当且仅当下述条件之一成立:
    \begin{enumerate}[(i)]
        \item \begin{equation}\label{eq9:14}
                  \langle \nabla f(x)-\nabla f(y), x-y\rangle \leq \frac{1}{\mu}\|\nabla f(x)-\nabla f(y)\|^2,
              \end{equation}
        \item \begin{equation}\label{eq9:15}
                  f(y)\leq f(x)+\langle \nabla f(x), y-x\rangle+\frac{1}{2\mu}\|\nabla f(x)-\nabla f(y)\|^2,
              \end{equation}
        \item \begin{equation}\label{eq9:16}
                  \|\nabla f(x)-\nabla f(y)\|\geq \mu\|x-y\|.
              \end{equation}
    \end{enumerate}
\end{theorem}

\begin{proof}
    先假设$f^*$可微,则类似\cref{thm9:2}证明的前半部分来推出结论,现去掉该条件并证明如下逻辑链:\\
    $f$强凸(\ref{eq9:2}) $\Rightarrow$ (\ref{eq9:15})
    $\Rightarrow$ (\ref{eq9:14})
    $\Rightarrow$ (\ref{eq9:16})
    $\Rightarrow$ $f$强凸(\ref{eq9:2}).\\
    举例说明(\ref{eq9:2}) $\Rightarrow$ (\ref{eq9:15}),剩余部分可类似\cref{thm9:2}证明的后半部分来推出.\\
    由\cref{thm9:3}知$f$强凸 $\Rightarrow$ $f$凸,令$f_{\varepsilon}=f+\varepsilon q$,则$f_{\varepsilon}^*$可微且 (\ref{eq9:2}) $\Rightarrow$ $f-\mu q$凸 $\Rightarrow$ $(f+\varepsilon q)-(\mu+\varepsilon)q$凸,\\
    从而$f_{\varepsilon}$为$(\mu+\varepsilon)$强凸的,因此可应用(\ref{eq9:15})式于$f_{\varepsilon}$得出
    \begin{equation*}
        f_{\varepsilon}(y)\leq f_{\varepsilon}(x)+\langle \nabla f_{\varepsilon}(x),y-x\rangle+\frac{1}{2(\mu+\varepsilon)}\|\nabla f_{\varepsilon}(x)-\nabla f_{\varepsilon}(y)\|^2.
    \end{equation*}
    令$\varepsilon\rightarrow0$可知(\ref{eq9:15})对$f$成立.证毕.
\end{proof}


\section{光滑强凸性的等价刻画}\label{sec9:4}
\begin{theorem}\label{thm9:5}
    设$f:\mathbb{R}^n\rightarrow\mathbb{R}$可微且$L>\mu>0$,对于$\forall x,y\in\mathbb{R}^n$,则$f$同时为$L$-光滑和$\mu$-强凸的等价于下述条件之一:
    \begin{enumerate}[(i)]
        \item $\langle \nabla f(x)-\nabla f(y), x-y\rangle \leq \frac{L\mu}{L+\mu}\|x-y\|^2+\frac{1}{L+\mu}\|\nabla f(x)-\nabla f(y)\|^2, $
        \item \begin{equation*}
                  \begin{aligned}
                      f(y) & \geq f(x)+\langle \nabla f(x), y-x\rangle+\frac{1}{2L} \|\nabla f(x)-\nabla f(y)\|^2 \\
                           & +\frac{\mu L}{2(L-\mu)}\|x-y-\frac{1}{L}(\nabla f(x)-\nabla f(y))\|^2.
                  \end{aligned}
              \end{equation*}
    \end{enumerate}
\end{theorem}

\begin{proof}
    由\cref{lem9:1}知, $f$同时为$L$-光滑和$\mu$-强凸等价于$Lq-f$和$f-\mu q$同时为凸函数,\\
    令$\tilde{f}=f-\mu q$,则该等价条件进一步等价为$\tilde{f}$为凸的且$(L-\mu)$-光滑的.\\
    据\cref{cor9:1},可进而推出等价条件(i)和(ii),其中(i)可由(\ref{eq9:8})式推出, (ii)可由(\ref{eq9:9})式推出.证毕!
\end{proof}

\section{光滑与强凸之间的对偶}\label{sec9:5}
\begin{theorem}\label{thm9:6}
    令$\sigma>0$,则
    \begin{enumerate}[(i)]
        \item 若$f:\mathbb{R}^n\rightarrow\mathbb{R}$为凸的且$\sigma$-光滑的,则$f^*$为$\frac{1}{\sigma}$-强凸的.
        \item 若$f:\mathbb{R}^n\rightarrow\mathbb{R}$为$\sigma$-强凸且可微,则$f^*$为$\frac{1}{\sigma}$-光滑的.
    \end{enumerate}
\end{theorem}

\begin{proof}
    \begin{enumerate}[(i)]
        \item
              设$f$为凸的且$\sigma$-光滑的,则由\cref{cor9:1}知(\ref{eq9:8})式成立为:
              \begin{equation}\label{eq9:17}
                  \langle \nabla f(x)-\nabla f(y),x-y\rangle\geq\frac{1}{\sigma}\|\nabla f(x)-\nabla f(y)\|^2,
              \end{equation}
              令$u=\nabla f(x),v=\nabla f(y)$,则由第\ref{chap:7}章中的\cref{thm7:5}可知
              \begin{equation*}
                  x=\nabla^*f(u),y=\nabla^*f(v),
              \end{equation*}
              代入(\ref{eq9:17})式得
              \begin{equation*}
                  \langle u-v,\nabla^*f(u)-\nabla^*f(v)\rangle\geq\frac{1}{\sigma}\|u-v\|^2.
              \end{equation*}
              再由\cref{thm9:3}的(ii)可知$f^*$为$\frac{1}{\sigma}$-强凸的.
        \item
              设$f$为$\sigma$-强凸且可微,则由\cref{thm9:3}的(ii)知
              \begin{equation*}
                  \langle \nabla f(x)-\nabla f(y),x-y\rangle\geq\sigma\|x-y\|^2,
              \end{equation*}
              作变换$u=\nabla f(x),v=\nabla f(y)$可知
              \begin{equation*}
                  \langle u-v,\nabla f^*(u)-\nabla f^*(v)\rangle\geq\sigma\|f^*(u)-\nabla f^*(v)\|^2,
              \end{equation*}
              由\cref{thm9:2}的(i)可知$f^*$为$\frac{1}{\sigma}$-光滑的.
    \end{enumerate}
\end{proof}


\section{相对光滑与相对强凸条件}\label{sec9:6}
为了推广光滑与强突性质, Bolte和Nesterov等人最近提出了相对光滑和强凸的概念(下述为无限制约束集的版本).
\begin{definition}\label{def9:2}
    设$h:\mathbb{R}^n\rightarrow\mathbb{R}$为可微凸函数, $f:\mathbb{R}^n\rightarrow\mathbb{R}$为可微的.\\
    若存在$L>0$,使得
    \begin{equation*}
        Lh-f\text{为凸函数},
    \end{equation*}
    则称$f$为相对$h$的$L$-光滑函数.\\
    若存在$\mu>0$,使得
    \begin{equation*}
        f-\mu h\text{为凸函数},
    \end{equation*}
    则称$f$为相对$h$的$\mu$-强凸函数.
\end{definition}

类似于之前的讨论,可以用凸函数的等价定义得到如下结论.

\begin{theorem}\label{thm9:7}
    下述条件等价:
    \begin{itemize}
        \item[(a-i)] $f$为相对$h$的$L$-光滑函数;
        \item[(a-ii)] $f(y)\leq f(x)+\langle\nabla f(x),y-x\rangle+LD_h(y,x)$;
        \item[(a-iii)] $\langle\nabla f(x)-\nabla f(y),x-y\rangle\leq L\langle\nabla h(x)-\nabla h(y),x-y\rangle$
        \item[(a-iv)] $\nabla^2f(x)\leq L\nabla^2h(x)$,假设$f,h\in C^2$.
    \end{itemize}
    类似地,下述条件亦等价:
    \begin{itemize}
        \item[(b-i)] $f$为相对$h$的$\mu$-强凸函数;
        \item[(b-ii)] $f(y)\geq f(x)+\langle\nabla f(x),y-x\rangle+\mu D_h(y,x)$;
        \item[(b-iii)] $\langle\nabla f(x)-\nabla f(y),x-y\rangle\geq \mu\langle\nabla h(x)-\nabla h(y),x-y\rangle$
        \item[(b-iv)] $\nabla^2f(x)\geq \mu\nabla^2h(x)$,假设$f,h\in C^2$.
    \end{itemize}
\end{theorem}

\begin{proof}
    从略.
\end{proof}

\begin{problemset}
    \item 证明$f(x)=\frac{1}{2}x^TAx+b^Tx+c$为$\mu$-强凸的当且仅当
    $$A-\mu I\succeq 0.$$
    \item 设$f$为$\mu$-强凸的, $g$为凸的函数.证明$$f+g\text{为}\mu\text{-强凸的}.$$
    \item 设$f(x)=\frac{1}{2}\| x\|^2-\frac{1}{2}d^2(x,\Omega)$,其中$\Omega$为$\mathbb{R}^n$的非空闭凸子集.证明
    $$f\text{为}1\text{-光滑函数}.$$
    \item 设$f:\mathbb{R}^n\rightarrow\mathbb{R}$满足$L$-梯度Lipschitz连续性,也即存在$L>0$,使得$\forall x,y\in\mathbb{R}^n$均有
    $$\| \nabla f(x)-\nabla f(y)\|\leq L\cdot\| x-y\|.$$
    证明$f$必为$L$-光滑的并举例说$L$-光滑性不一定蕴含$L$-梯度Lipschitz连续性.\\
    (hint:第一部分参考\cref{thm9:2}证明的最后一段. $f(x)=-\frac{1}{2}\| x\|^2$为$\varepsilon>0$光滑的($\varepsilon$可任意小)但$\|\nabla f(x)-\nabla f(y)\|\leq \varepsilon\| x-y\|$不能成立.)
    \item 设$f:\mathbb{R}^n\rightarrow\mathbb{R}$定义为
    $$f(x)=\frac{1}{4}\| Ax-b\|_4^4+\frac{1}{2}\| Cx-d\|^2_2.$$
    其中$\| x\|^p_p=\sum\limits^n_{i=1}x_i^p$, $A,C$为矩阵, $b,d$为向量.证明$f$相对于$h(x)=\frac{1}{4}\| x\|^4_2+\frac{1}{2}\| x\|^2_2$为$L$-光滑的,并给出参数$L$的估计.
    \item 设$f:\mathbb{R}^n\rightarrow\mathbb{R}$定义为
    $$f(x)=\frac{1}{4}\| Ex\|^4_2+\frac{1}{4}\| Ax-b\|^4_4+\frac{1}{2}\| Cx-d\|^2_2.$$
    记矩阵$E$和$C$的最小奇异值分别为$\sigma_E,\sigma_C$并假设$\sigma_E>0,\sigma_C>0$.令$h(x)=\frac{1}{4}\| x\|^4_2+\frac{1}{2}\| x\|^2_2$.证明$f$相对$h$为$\mu$-强凸的,并给出$\mu$的估计.
\end{problemset}

\chapter{误差界条件}\label{chap:10}
本章将通过对$L$-光滑性和强凸性的等价条件进行松弛化处理,定义一组误差界条件,并分析它们之间的强弱关系.本章所定义的误差界条件覆盖了文献中主流的误差界概念,同时,还出现了一些新的条件.设考察的优化问题为:
\begin{equation}
    \label{eq10:1}
    \left\{
    \begin{aligned}
         & \bar{f}:=\min_{x\in\mathbb{R}^n} f(x),        \\
         & \mathbb{Z}:=\mathop{\text{argmin}}_{x\in\mathbb{R}^n} f(x), \\
         & x_p:=\Pi _{\mathbb{Z}}(x).
    \end{aligned}
    \right.
\end{equation}
其中$f$为闭的凸函数,从而$\mathbb{Z}$为凸闭集,假设$\mathbb{Z}\neq\emptyset$,则$x$到$\mathbb{Z}$的投影点$x_p$存在且唯一!

\section{强凸松弛条件}\label{sec10:1}
为清楚起见,我们先列出上一章中关于强凸的五个等价条件
\begin{align}
     & f(y)\geq f(x)+\langle\nabla f(x),y-x\rangle+\frac{\mu}{2}\|x-y\|^2;\label{SC1}\tag{SC$_1$}                       \\
     & f(y)\leq f(x)+\langle\nabla f(x),y-x\rangle+\frac{1}{2\mu}\|\nabla f(x)-\nabla f(y)\|^2;\label{SC2}\tag{SC$_2$}  \\
     & \langle \nabla f(x)-\nabla f(y),x-y\rangle\geq\mu\|x-y\|^2;\label{SC3}\tag{SC$_3$}                               \\
     & \langle \nabla f(x)-\nabla f(y),x-y\rangle\leq\frac{1}{\mu}\|\nabla f(x)-\nabla f(y)\|^4;\label{SC4}\tag{SC$_4$} \\
     & \|\nabla f(x)-\nabla f(y)\|\geq \mu\|x-y\|.\label{SC5}\tag{SC$_5$}
\end{align}

其中, $x,y\in\mathbb{R}^n$.

通过限制$x,y$两个变量的取值,可定义一组强凸松弛条件.
\begin{definition}{拟强凸条件QSC}\label{def10:1}
    若存在常数$\mu_1>0$使得
    \begin{equation}
        \label{QSC}
        \bar{f}\geq f(x)+\langle\nabla f(x),x_p-x\rangle+\frac{\mu_1}{2}\|x-x_p\|^2,\forall x\in\mathbb{R}^n.\tag{QSC}
    \end{equation}
    则称$f$为拟强凸函数,不等式(\ref{QSC})称为拟强凸条件.
\end{definition}

拟强凸条件是Necoara, Nesterov, Glineur在他们合作的论文中提出的强凸松弛条件,可由强凸条件(\ref{SC1})取$y=x_p$推出.此外,通过在(\ref{SC1})中取$x=y_p$可定义二阶增长条件.

\begin{definition}{二阶增长条件QG}\label{def10:2}
    若存在常数$\mu_2>0$,使得
    \begin{equation}
        \label{QG}
        f(y)\geq\bar{f}+\frac{\mu_2}{2}\|y-y_p\|^2,\forall y\in\mathbb{R}^n.\tag{QG}
    \end{equation}
    则称$f$为二阶增长函数, (\ref{QG})式称为二阶增长条件.
\end{definition}

类似地,通过对(SC$_i,i=2,3,4,5$)中的变量进行限定可定义如下松弛条件.

\begin{definition}\label{def10:3}
    PL条件:
    \begin{equation}\label{PL}
        f(y)\leq \bar{f}+\frac{1}{2\mu_3}\|\nabla f(y)\|^2,\forall y\in\mathbb{R}^n.\tag{PL}
    \end{equation}
    反向PL条件:
    \begin{equation}\label{PL1}
        \bar{f}\leq f(x)+\langle\nabla f(x),x_p-x\rangle+\frac{1}{2\mu_4}\|\nabla f(x)\|^2,\forall x\in\mathbb{R}^n.\tag{PL-}
    \end{equation}
    RSC限制强凸条件:
    \begin{equation}\label{RSC}
        \langle\nabla f(x),x-x_p\rangle\geq \mu_5\|x-x_p\|^2,\forall x\in\mathbb{R}^n.\tag{RSC}
    \end{equation}
    反向RSC条件:
    \begin{equation}\label{RSC1}
        \langle\nabla f(x),x-x_p\rangle\leq\frac{1}{\mu_6}\|\nabla f(x)\|^2,\forall x\in\mathbb{R}^n.\tag{RSC-}
    \end{equation}
    EB误差界条件:
    \begin{equation}\label{EB}
        \|\nabla f(x)\|\geq \mu_7\|x-x_p\|,\forall x\in\mathbb{R}^n,\forall x\in\mathbb{R}^n.\tag{EB}
    \end{equation}
    其中$\mu_i$, $i=3,\cdots,7$为正的常数.
\end{definition}


(\ref{PL})条件由Polyak与Lojasiewicz等人于上世纪六十年代提出.近年来,在机器学习与优化领域得到广泛关注. (\ref{RSC})条件由Zhang与Yin合作提出.误差界条件最早可追溯到Hoffman上世纪五十年代的工作, Luo和Tseng在上世纪八十年代做出了突出贡献,极大地推动了该条件在优化领域的发展和应用,剩余的条件则未见于文献.

\begin{theorem}{等价性}\label{thm10:1}
    考虑最优化问题(\ref{eq10:1})并假设$f$为$L$-光滑的,则强凸松弛条件之间存在如下隐含关系:
    \begin{equation*}
        \text{(\ref{QSC})}\Rightarrow \text{(\ref{RSC})}\Rightarrow \text{(\ref{EB})}\Rightarrow \text{(\ref{RSC1})}\Rightarrow \text{(\ref{PL})}\Rightarrow \text{(\ref{QG})}\Rightarrow \text{(\ref{PL1})}.
    \end{equation*}
    且(\ref{QG})$\Rightarrow$ (\ref{RSC}),因而上式中的中间五个条件等价.
\end{theorem}

\begin{proof}
    (\ref{QSC})$\Rightarrow$ (\ref{RSC})
    由(\ref{QSC})条件知
    \begin{equation*}
        \langle \nabla f(x),x-x_p\rangle\geq f(x)-\bar{f}+\frac{\mu_1}{2}\|x-x_p\|^2.
    \end{equation*}
    又$f(x)-\bar{f}\geq 0$,可知(\ref{RSC})条件成立且$\mu_5=\frac{\mu_1}{2}$.\\
    (\ref{RSC})$\Rightarrow$(\ref{EB})
    应用Cauchy-Schwarz不等式于(\ref{RSC})的左端可得:
    \begin{equation}
        \|\nabla f(x)\|\cdot \|x-x_p\|\geq \langle\nabla f(x),x-x_p\rangle\geq \mu_5\|x-x_p\|^2.\nonumber
    \end{equation}
    \begin{enumerate}[(i)]
        \item 若$x\neq x_p$,则可消去$\|x-x_p\|$从而得到(\ref{EB})条件;
        \item 若$x=x_p$,则$\nabla f(x)=\nabla f(x_p)=0$,从而(\ref{EB})条件也成立.
    \end{enumerate}
    (\ref{EB})$\Rightarrow$(\ref{RSC1})由$f$的$L$-光滑性可知
    $$
        \left\{
        \begin{aligned}
            f(x_p)\leq f(x)+\langle \nabla f(x),x_p-x\rangle+\frac{L}{2}\|x-x_p\|^2, \\
            f(x)\leq f(x_p)+\langle \nabla f(x_p),x-x_p\rangle+\frac{L}{2}\|x-x_p\|^2.
        \end{aligned}
        \right.
    $$
    由第一式:
    \begin{equation}
        \label{eq10:2}
        \langle \nabla f(x),x-x_p\rangle\leq f(x)-f(x_p)+\frac{L}{2}\|x-x_p\|^2.
    \end{equation}
    结合第二式与$\nabla f(x_p)=0$知
    \begin{equation*}
        f(x)\leq f(x_p)+\frac{L}{2}\|x-x_p\|^2.
    \end{equation*}
    于是, $f(x)- f(x_p)\leq\frac{L}{2}\|x-x_p\|^2$.因此,再应用(\ref{EB})条件并结合(\ref{eq10:2})式可得
    \begin{equation*}
        \langle\nabla f(x),x-x_p\rangle\leq L\cdot\|x-x_p\|^2\leq\frac{L}{\mu_7^2}\|\nabla f(x)\|^2.
    \end{equation*}
    故(\ref{RSC1})成立.\\
    (\ref{RSC1})$\Rightarrow$(\ref{PL}) 由凸函数的定义知
    \begin{equation*}
        \bar{f}\geq f(x)+\langle \nabla f(x),x_p-x\rangle.
    \end{equation*}
    于是, (\ref{RSC1})可推出
    \begin{equation*}
        \frac{1}{\mu_6}\|\nabla f(x)\|^2\geq \langle \nabla f(x),x-x_p\rangle\geq f(x)-\bar{f}.
    \end{equation*}
    也即(\ref{PL})条件成立.\\
    (\ref{PL})$\Rightarrow$(\ref{QG}) Karimi-Nutini-Schimidt基于梯度流的方法给出了证明.\\
    (\ref{EB})$\Rightarrow$(\ref{QG})
    Zhang在论文中给出了推广条件等价性证明.他们的证明依赖下述基本结论.对任意$x\in\text{cl}(\text{dom}(f))$,存在唯一的绝对连续曲线$x(t):[0,+\infty)\rightarrow \mathbb{R}^n$满足
    \begin{enumerate}[(i)]
        \item $x(0)=x$;
        \item $x(t)\rightarrow \hat{x}\in\mathbb{Z},t\rightarrow\infty$;
        \item $\dot{x}(t)\in-\partial f(x(t))$;
        \item $f(x(t))$单调下降且$\lim_{t\rightarrow\infty}f(x(t))=\bar{f}$.
    \end{enumerate}
    取$x\notin\mathbb{Z}$,令$T:=\inf\{t\in [0,+\infty): f(x(t))=\bar{f}\}$,则必有$T>0$.
    否则,若$T=0$,则存在$t_k\downarrow T=0,k\rightarrow\infty$且
    \begin{equation*}
        f(x(t_k))=\bar{f}.
    \end{equation*}
    由$f$的闭性因而下半连续的,可知
    \begin{equation*}
        f(x)=f(x(0))\leq\lim\inf_{t\rightarrow 0^+}f(x(t))=\bar{f}.
    \end{equation*}
    从而$x\in\mathbb{Z}$矛盾!\\
    应用(\ref{PL})条件,可推导下述关系
    \begin{equation*}
        \frac{\|\dot{x}(t)\|}{\sqrt{f(x(t))-\bar{f}}}=\frac{\|\nabla f(x(t))\|}{\sqrt{f(x(t))-\bar{f}}}
        \geq 2\mu_3,\forall t\in[0,T).
    \end{equation*}
    于是对任意$p,q\in[0,T)$且$p\leq q$,
    \begin{equation*}
        \begin{aligned}
            \sqrt{f(x(p))-\bar{f}}-\sqrt{f(x(q))-\bar{f}} & =\int_q^p\frac{d\sqrt{f(x(t))-\bar{f}}}{dt}dt                                                  \\
                                                          & =\frac{1}{2}\int_q^p(f(x(t)-\bar{f})^{-\frac{1}{2}}\langle \dot{x}(t),\nabla f(x(t))\rangle dt \\
                                                          & =\frac{1}{2}\int_q^p(f(x(t)-\bar{f})^{-\frac{1}{2}}\|\dot{x}(t)\|^2 dt                         \\
                                                          & =\frac{1}{2}\int_q^p\frac{\|\dot{x}(t)\|}{\sqrt{f(x(t)-\bar{f}}}\|\dot{x}(t)\| dt              \\
                                                          & \geq\mu_3\int_q^p\|\dot{x}(t)\|dt                                                              \\
                                                          & =\mu_3\cdot\text{Length}(x(t),p,q)                                                             \\
                                                          & \geq \mu_3\|x(p)-x(q)\|.
        \end{aligned}
    \end{equation*}
    其中, $\text{Length}(x(t),p,q)$表示曲线$x(t)$从$p$到$q$的长度.令$p\rightarrow0,q\rightarrow T$可得
    $\sqrt{f(x)-\bar{f}}\geq \mu_3\|x-x(T)\|$.
    注意到$x(T)\in\mathbb{Z}$可知
    \begin{equation*}
        \sqrt{f(x)-\bar{f}}\geq \mu_3\|x-x(T)\|\geq\mu_3\|x-x_p\|,\forall x\notin \mathbb{Z}.
    \end{equation*}
    从而,
    \begin{equation*}
        f(x)-\bar{f}\geq \mu_3^2\|x-x_p\|^2.
    \end{equation*}
    即证!\\
    (\ref{QG})$\rightarrow$(\ref{PL1})
    \begin{align}
        f(x)-\bar{f} & \geq \frac{\mu_2}{2}\|x-x_p\|^2\nonumber                                                 \\
                     & \geq \frac{\mu_2}{2}\|x-x_p\|^2-\frac{1}{2\mu_2}\|\nabla f(x)-\mu_2(x-x_p)\|^2,\nonumber \\
                     & =\langle \nabla f(x),x-x_p\rangle-\frac{1}{2\mu_2}\|\nabla f(x)\|^2.\nonumber
    \end{align}
    也即
    \begin{align}
        \bar{f}\leq f(x)+\langle\nabla f(x),x_p-x\rangle+\frac{1}{2\mu_2}\|\nabla f(x)\|^2.\nonumber
    \end{align}
    (\ref{QG})$\Rightarrow$(\ref{RSC})
    由凸性的定义
    \begin{equation*}
        \bar{f}\geq f(x)+\langle\nabla f(x),x_p-x\rangle.
    \end{equation*}
    于是, $\langle\nabla f(x),x-x_p\rangle\geq f(x)-\bar{f}\geq \frac{\mu_2}{2}\|x-x_p\|^2$,从而(\ref{RSC})条件成立.
\end{proof}

\section{典型例子:强凸线性复合函数}\label{sec10:2}
本节将给出一类满足强凸松弛但非强凸的函数,首先给出Hoffman引理.
\begin{lemma}{Hoffman引理}\label{lem10:1}
    设$A\in\mathbb{R}^{p\times n},C\in\mathbb{R}^{m\times n},b\in\mathbb{R}^p,d\in\mathbb{R}^m$.设多面体
    \begin{equation*}
        \mathcal{P}:=\{x\in\mathbb{R}^n:Ax=b,Cx\leq d\}
    \end{equation*}
    非空,对任意$x\in\mathbb{R}^n$其到$\mathcal{P}$的投影记为$x_p$,则存在正的常数$\theta(A,C)$满足
    \begin{equation*}
        \|x-x_p\|\leq \theta(A,C)\left \|
        \begin{array}{cc}
            Ax-b \\
            \left[Cx-d\right]_{+}
        \end{array}
        \right\|.
    \end{equation*}
    其中$[t]_{+}=\max\{0,t\}$.
\end{lemma}

考虑如下最优化问题
\begin{equation}
    \label{eq10:3}
    \left\{
    \begin{aligned}
         & \bar{f}:=\min_{x\in\mathbb{R}^n} f(x)=G(Ax)+c^T x, \\
         & \mathbb{Z}:=\mathop{\text{argmin}}_{x\in\mathbb{R}^n} f(x),      \\
         & x_p:=\Pi _{\mathbb{Z}}(x).
    \end{aligned}
    \right.
\end{equation}
其中, $A\in\mathbb{R}^{m\times n}$, $g$为$L$-光滑且$\mu$-强凸的, $c\in\mathbb{R}^{n}$.

\begin{theorem}\label{thm10:2}
    最优化问题(\ref{eq10:3})中的$f$满足限制强凸性, i.e.存在$\tilde{\mu}>0$使得
    \begin{equation*}
        \langle \nabla f(x),x-x_p\rangle\geq \tilde{\mu}\|x-x_p\|^2.
    \end{equation*}
\end{theorem}

\begin{proof}
    首先证明存在唯一的向量$v\in\mathbb{R}^m$使得
    \begin{equation*}
        A\bar{x}=V,\forall \bar{x}\in\mathbb{Z}.
    \end{equation*}
    令$\bar{x}_1,\bar{x}_2\in\mathbb{Z}$,则由$f$的凸性知
    \begin{equation*}
        f(\frac{\bar{x}_1+\bar{x}_2}{2})
        \leq
        \frac{1}{2}(f(\bar{x}_1)+f(\bar{x}_2))\leq f(\frac{\bar{x}_1+\bar{x}_2}{2}).
    \end{equation*}
    第二式应用了最优值的定义,从而
    \begin{equation*}
        f(\frac{\bar{x}_1+\bar{x}_2}{2})=\frac{f(\bar{x}_1)+f(\bar{x}_2)}{2}.
    \end{equation*}
    由$f(x)=g(Ax)+c^T x$知
    \begin{equation*}
        g(\frac{A\bar{x}_1+A\bar{x}_2}{2})=\frac{g(A\bar{x}_1)+g(A\bar{x}_2)}{2}.
    \end{equation*}
    又$g$为强凸得可知,存在$\mu>0$使得
    \begin{equation*}
        g(\frac{A\bar{x}_1+A\bar{x}_2}{2})\leq
        \frac{g(A\bar{x}_1)+g(A\bar{x}_2)}{2}-\frac{\mu}{8}\|A\bar{x}_1-A\bar{x}_2\|^2.
    \end{equation*}
    从而$A\bar{x}_1=A\bar{x}_2$.\\
    其次,证明$\mathbb{Z}=\{x\in\mathbb{R}^n:Ax=v\}$,
    只需验证$\{x:Ax=v\}\subset\mathbb{Z}$即可.\\
    设$Ax=v$,由链式法则得
    \begin{align}
        \nabla f(x) & =A^T \nabla g(Ax)+C\nonumber \\
                    & =A^T \nabla g(v)+C.\nonumber
    \end{align}
    另一方面,设$\bar{x}\in\mathbb{Z}$,则
    \begin{align}
        0 & =\nabla f(\bar{x})=A^T\nabla g(A\bar{x})+C=A^T\nabla g(v)+C\nonumber \\
          & =\nabla f(x).\nonumber
    \end{align}因此, $x\in\mathbb{Z}$,从而$\{x:Ax=v\}\subset\mathbb{Z}$.\\
    应用Hoffman引理可知存在常数$\theta>0$,使得
    \begin{equation*}
        \|x-x_p\|\leq\theta\|Ax-Ax_p\|.
    \end{equation*}
    最后应用$g$得强凸性可知
    \begin{align}
        \frac{\mu}{\theta^2}\|x-x_p\|^2
         & \leq \mu\cdot\|Ax-Ax_p\|^2\nonumber                                 \\
         & \leq \langle\nabla g(Ax)-\nabla g(Ax_p),Ax-Ax_p\rangle\nonumber     \\
         & =\langle A^T \nabla g(Ax)- A^T \nabla g(Ax_p),x-x_p\rangle\nonumber \\
         & =\langle\nabla f(x)-\nabla f(x_p),x-x_p\rangle.\nonumber
    \end{align}
    从而,
    \begin{equation*}
        \langle\nabla f(x),x-x_p\rangle
        \geq
        \frac{\mu}{\theta^2}\|x-x_p\|^2,\forall x\in\mathbb{R}^n.
    \end{equation*}
    也即(\ref{RSC})条件成立.
\end{proof}

\begin{problemset}
    \item 设$g:\mathbb{R}^n\rightarrow\mathbb{R}$满足$L$-梯度Lipschitz连续性与$\mu$-限制强凸性.假设$g$存在唯一的极小点且$A\in\mathbb{R}^{m\times n}(m\leq n)$为满秩矩阵.证明$f(x)=g(Ax)$满足限制强凸性.
    \item 证明Hoffman引理.
    \item 证明函数$f(x)=x^2+3\sin^2(x)$非凸但满足PL条件.
    \item 试举一个严格凸但不满足RSC条件的例子.
\end{problemset}

\chapter{最优化条件与对偶}\label{chap:11}

本章分含约束和无约束两种情形讨论优化问题的最优化条件,并给出凸优化的对偶理论.
\section{无约束优化情形}\label{sec11:1}
首先给出极小点的定义.
\begin{definition}\label{def11:1}
    设$f:\mathbb{R}^n\rightarrow\bar{\mathbb{R}},X\subset\mathbb{R}^n$.若$\hat{x}\in X$满足条件:
    存在$\varepsilon>0$,使得$f(y)\geq f(\hat{x}),\forall y\in X$且$\|y-\hat{x}\|\leq\varepsilon$,
    则称$\hat{x}$为$f$在$X$上的局部极小点.若$f(y)\geq f(\hat{x})$对任意$y\in X$恒成立,则称$\hat{x}$为$f$在$X$上的全局极小点.
\end{definition}

\begin{theorem}\label{thm11:1}
    设$f:\mathbb{R}^n\rightarrow\bar{\mathbb{R}}$在$\hat{x}$处可微,若$\hat{x}$是$f$在$\mathbb{R}^n$上的局部极小点,则有$\nabla f(\hat{x})=0$;若假设$f$二阶连续可微,则还有$\nabla^2f(\hat{x})\succeq  0$.
\end{theorem}

\begin{proof}
    反设$\nabla f(\hat{x})\neq 0$,由$f$在$\hat{x}$处可微知
    \begin{equation}
        f(y)=f(\hat{x})+\langle\nabla f(\hat{x}),y-\hat{x}\rangle+o(\|y-\hat{x}\|).\nonumber
    \end{equation}
    考虑$y(\tau)=\hat{x}-\tau\cdot\nabla f(\hat{x}),\tau>0$,代入上式可得
    \begin{equation}
        \label{eq11:1}
        f(y(\tau))=f(\hat{x})-\tau\cdot\|\nabla f(\hat{x})\|^2+o(\tau).
    \end{equation}
    由$\lim_{\tau\rightarrow 0_+}\frac{o(\tau)}{\tau}=0$知存在$\tau_0>0, s.t.$ 当$0<\tau<\tau_0$时,
    \begin{equation}
        \frac{o(\tau)}{\tau}<\frac{1}{2}\|\nabla f(\hat{x})\|^2.\nonumber
    \end{equation}
    于是由(\ref{eq11:1})知$f(y(\tau))<f(\hat{x})-\frac{\tau}{2}\|\nabla f(\hat{x})\|^2<f(\hat{x})$.矛盾!\\
    若$f$在$\hat{x}$处二阶可微,则
    \begin{equation}\label{eq11:2}
        \begin{aligned}
            f(y) & =f(\hat{x})+\langle\nabla f(\hat{x}),y-\hat{x}\rangle +\frac{1}{2}(y-\hat{x})^T \nabla^2f(\hat{x})(y-\hat{x})+o(\|y-\hat{x}\|^2) \\
                 & =f(\hat{x})+\frac{1}{2}(y-\hat{x})^T\nabla^2f(\hat{x})(y-\hat{x})+o(\|y-\hat{x}\|^2).
        \end{aligned}
    \end{equation}

    反设$\nabla ^2f(\hat{x})\prec 0$,固定非零向量$d\in\mathbb{R}^n$并考虑
    \begin{equation}
        y(\tau)=\hat{x}+\tau d.\nonumber
    \end{equation}
    将其代入(\ref{eq11:2})式可得
    \begin{equation}
        f(y(\tau))=f(\hat{x})+\frac{\tau^2}{2}d^T\nabla^2f(\hat{x})d+o(\tau^2).\nonumber
    \end{equation}
    类似地,存在$\tau>0$,使得$o(\tau^2)<-\frac{\tau}{4}d^T\nabla^2f(\hat{x})d, $
    从而$f(y(\tau))<f(\hat{x})+\frac{\tau^2}{4}d^T\nabla^2f(\hat{x})d<f(\hat{x})$,矛盾!
\end{proof}

\begin{theorem}\label{thm11:2}
    设$f:\mathbb{R}^n\rightarrow\bar{\mathbb{R}}$为正规凸函数,以下结论成立:
    \begin{enumerate}[(i)]
        \item 若$\hat{x}$为$f$的局部极小,则$\hat{x}$也为$f$的全局极小点,且
              \begin{equation}
                  \label{eq11:3}
                  0\in\partial f(\hat{x}).
              \end{equation}
        \item 若(\ref{eq11:3})式成立,则$\hat{x}$为$f$的全局极小点.
    \end{enumerate}
\end{theorem}

\begin{proof}
    \begin{enumerate}[(i)]
        \item
              设$\hat{x}$为$f$的局部极小点,对任意固定的$y\in\mathbb{R}^n$,必存在$1>\alpha_0>0$,使得当$0<\alpha<\alpha_0$时,
              \begin{equation*}
                  \begin{aligned}
                      f(\hat{x})
                       & \leq f(\alpha y+(1-\alpha)\hat{x})     \\
                       & \leq \alpha f(y)+(1-\alpha)f(\hat{x}).
                  \end{aligned}
              \end{equation*}
              从而$f(\hat{x})\leq f(y)$,可知$\hat{x}$为$f$的全局极小点,进而
              \begin{equation}
                  \label{eq11:4}
                  f(y)\geq f(\hat{x})+\langle0,y-\hat{x}\rangle,\forall y\in\mathbb{R}^n,
              \end{equation}
              因此, $0\in\partial f(\hat{x}).$
        \item
              当(\ref{eq11:3})式成立, (\ref{eq11:4})式必成立,从而$\hat{x}$为$f$的全局极小点,证毕!
    \end{enumerate}
\end{proof}

\begin{corollary}\label{cor11:1}
    设$f:\mathbb{R}^n\rightarrow\mathbb{R}$二阶连续可微,若对任意$x\in\mathbb{R}^n$均有$\nabla ^2f(x)\geq0$,则$f$的任意稳定点$x^*$(也即满足$\nabla f(x)=0$的点)均为$f$的全局极小点.\\
    \begin{remark}
        该结果给出了全局极小点的充分条件$\nabla^2\geq 0$,而\cref{thm11:1}则说明了这一条件的必要性.
    \end{remark}
\end{corollary}

\begin{proof}
    首先条件$\nabla^2 f(x)\geq 0$表明:$f$为凸的函数,结合\cref{thm11:2}的(ii)以及$\nabla f(x^*)=0$等同于$0\in\partial f(x^*)=\{\nabla f(x^*)\}$
    可知$x^*$为$f$的全局极小点,证毕!
\end{proof}
~\par
若将条件$\nabla^2f(x)\geq 0$修订为$\nabla^2f(x^*)>0$,则有如下局部地加强的结论.

\begin{theorem}\label{thm11:3}
    设$f:\mathbb{R}^n\rightarrow\mathbb{R}$二阶连续可微,若$f$在$x^*$处满足条件:$\nabla f(x^*)=0$且$\nabla^2f(x^*)>0$,则存在$r>0$,使得$f(x)>f(x^*),\forall x^*\neq x\in O(x^*,r)$,换言之, $f$在$x^*$处达局部严格极小.
\end{theorem}

\begin{proof}
    只需考虑$f$的二阶Taylor展式:
    \begin{equation}
        \label{eq11:5}
        f(x)=f(x^*)+\frac{1}{2}(x-x^*)^T\nabla^2f(x^*)(x-x^*)+o(\|x-x^*\|^2).
    \end{equation}
    由$\nabla^2f(x^*)>0$则$\lambda_{\min}(\nabla^2f(x^*))>0$.\\
    另存在$r>0$, s.t.当$\|x-x^*\|<r$时,
    $$|\frac{o(\|x-x^*\|^2)}{\|x-x^*\|^2}|\leq\frac{1}{4}\lambda_{\min}(\nabla^2f(x^*)).$$
    由(\ref{eq11:5})可知:若$x^*\neq x\in O(x^*,r)$,则
    \begin{equation*}
        \begin{aligned}
            f(x)-f(x^*) & \geq \frac{1}{2}\lambda_{\min}(\nabla^2f(x^*))\cdot\|x-x^*\|^2-\frac{1}{4}\lambda_{\min}(\nabla^2f(x^*))\cdot\|x-x^*\|^2 \\
                        & =\frac{1}{4}\lambda_{\min}(\nabla^2f(x^*))\cdot\|x-x^*\|^2>0.
        \end{aligned}
    \end{equation*}
\end{proof}

\begin{example}\label{exa11:1}
    考虑二次函数
    \begin{equation}
        f(x)=x^T Ax+2b^T x+c,\nonumber
    \end{equation}
    其中$A\in\mathbb{R}^{n\times n}$为对称矩阵, $b\in\mathbb{R}^n,c\in\mathbb{R}$,则其梯度和海森矩阵分别为
    \begin{equation*}
        \begin{aligned}
            \nabla f(x)=2Ax+2b, \\
            \nabla^2f(x)=2A.
        \end{aligned}
    \end{equation*}
    因此,下述结论成立:
    \begin{enumerate}[(i)]
        \item
              若$A\geq 0$,则$x$为$f$的全局极小点当且仅当$Ax+b=0$;
        \item
              若$A>0$,则$f$有唯一的全局极小点$x=-A^{-1}b$.
    \end{enumerate}
\end{example}

\begin{example}\label{exa11:2}
    设$f:\mathbb{R}^n\rightarrow\mathbb{R}$定义为$f(x)=\| x\|_1+\frac{1}{2}\| Ax-b\|^2$, $A=[a_1,\cdots,a_n]$.则$\hat{x}\in\mathop{\text{Argmin}} f(x)$当且仅当下述条件成立:
    $$\left\{\begin{array}{cc}
            a^T_i(A\hat{x}-b)=-\text{sgn}\hat{x}_i, & i\in I_0^c(\hat{x}). \\
            a^T_i(A\hat{x}-b)\in[-1,1],             & i\in I_0.
        \end{array}\right.$$
    其中$I_0(\hat{x}):=\{i:\hat{x}_i=0\}$, $I_0^c(\hat{x})=\{i:\hat{x}_i\neq0\}$.
\end{example}

\begin{proof}
    据\cref{thm11:2}知$\hat{x}\in\mathop{\text{Argmin}} f(x)$当且仅当
    $$0\in\partial f(\hat{x})=\partial\| \hat{x}\|_1+A^T(A\hat{x}-b).$$
    应用$\partial\|\cdot\|_1$的计算公式即可推出结论.
\end{proof}

\section{约束优化的情形}\label{sec11:2}

一般的约束优化均可写成如下形式的优化问题:
\begin{equation*}
    \begin{aligned}
         & \text{minimize }\quad f(x),              \\
         & \text{subject to }\quad x\in \mathbb{Z}.
    \end{aligned}
\end{equation*}
假设$f$在$\hat{x}\in\mathbb{Z}$处达到局部极小且$f\in C^1$,则有何必要条件呢?
若$\hat{x}\in\text{int}(\mathbb{Z})$,则约束优化可退化为无约束优化,从而必然有$\nabla f(\hat{x})$.
由此可观察到:约束优化比无约束优化困难的地方在于$f$在约束集$\mathbb{Z}$的边界达到极小,而对约束集进行近似是分析的关键所在.
在(\ref{eq11:4})中,我们曾引入可行方向锥对凸集进行某种“半线性”的近似.在此我们将引入切锥的概念,它本质时可行方向锥的闭包.

\begin{definition}\label{def11:2}
    设$\mathbb{Z}\subset\mathbb{R}^n$非空且$\hat{x}\in\mathbb{Z},d\in\mathbb{R}^n$.若存在序列$\{x^k\}\subset \mathbb{Z}$以及正的数列$\{\tau_k\}$,使得$\lim_{k\rightarrow \infty}\tau_k=0$且
    \begin{equation}
        \label{eq11:6}
        d=\lim_{k\rightarrow \infty}\frac{x^k-\hat{x}}{\tau_k},
    \end{equation}
    则称$d$为$\mathbb{Z}$在$\hat{x}$处的切方向,而切方向的全体构成$\mathbb{Z}$在$\hat{x}$处的切锥,记为$T_{\mathbb{Z}}(\hat{x})$.
\end{definition}

\begin{lemma}\label{lem11:1}
    切锥$T_{\mathbb{Z}}(\hat{x})$为闭锥.
\end{lemma}

\begin{proof}
    设$d\in T_{\mathbb{Z}}(\hat{x})$,且存在$\{x^k\}\subset\mathbb{Z}$, $ \tau_k\rightarrow 0_+$, s.t. (\ref{eq11:6})式成立,则有
    \begin{equation}
        \beta \cdot d=\lim_{k\rightarrow\infty}\frac{x^k-\hat{x}}{(\tau_k/\beta)},\beta>0.\nonumber
    \end{equation}
    从而$\beta\cdot d\in T_{\mathbb{Z}}(\hat{x})$,可知$T_{\mathbb{Z}}(\hat{x})$为锥.\\
    设$\{d^n\}\subset T_{\mathbb{Z}}(\hat{x})$
    且$d^n\rightarrow d,n\rightarrow\infty$.往证$d\in T_{\mathbb{Z}}(\hat{x})$,据定义,存在序列$\{x^{n,k}\}\subset\mathbb{Z}$及$\tau^{n,k}\rightarrow 0_+$,使得
    \begin{equation}
        \frac{x^{n,k}-\hat{x}}{\tau^{n,k}}\rightarrow d^n,k\rightarrow\infty.\nonumber
    \end{equation}
    于是,存在序列$\{k_n\}$使得
    \begin{equation}
        \|\frac{x^{n,k_n}-\hat{x}}{\tau^{n,k_n}}-d^n\|\leq \|d^n-d\|.\nonumber
    \end{equation}
    因此,
    \begin{equation}
        \|\frac{x^{n,k_n}-\hat{x}}{\tau^{n,k_n}}-d\|\leq 2\|d^n-d\|.\nonumber
    \end{equation}
    两边对$n$取极限可知
    \begin{equation}
        d=\lim_{n\rightarrow\infty}\frac{x^{n,k_n}-\hat{x}}{(\tau^{n,k_n})}.\nonumber
    \end{equation}
    又显然有$\tau^{n,k_n}\rightarrow 0_+$,故$d\in T_{\mathbb{Z}}(\hat{x})$.即证!
\end{proof}

\begin{lemma}\label{lem11:2}
    设$\mathbb{Z}\subset\mathbb{R}^n$为非空凸集且$x\in\mathbb{Z}$,则有
    \begin{equation}
        T_{\mathbb{Z}}(x)=\bar{K}_{\mathbb{Z}}(x).\nonumber
    \end{equation}
    此处, $K_{\mathbb{Z}}(x)=\text{cone}(X-x)=\{d\in\mathbb{R}^n:d=\beta (y-x),y\in X,\beta\geq 0\}.$
\end{lemma}

\begin{proof}
    设$d\in K_{\mathbb{Z}}(x)$,则$d=\beta (y-x)$,不妨$\beta>0$,\\
    取$x^k=x+\beta\cdot\tau_k (y-x)=(1-\beta_k)x+\beta\tau_k y$,其中$\tau_k\rightarrow 0_+$,\\
    因而可假设$\beta\tau_k<1$,由$X$为凸集知$\{x^k\}\subset\mathbb{Z}$,再由$x^k$的表达式知$d=\lim\frac{x^k-x}{\tau_k}$,因而$d\in T_{\mathbb{Z}}(x)$.\\
    又$T_{\mathbb{Z}}(x)$为闭锥,可知
    \begin{equation}
        \bar{K}_{\mathbb{Z}}(x)\subset T_{\mathbb{Z}}(x).\nonumber
    \end{equation}
    为证反向包含关系,反设存在
    $h\in T_{\mathbb{Z}}(x)\backslash \bar{K}_{\mathbb{Z}}(x)$,
    由分离定理知存在非零$a\in\mathbb{R}^n$及$\varepsilon>0$使得
    \begin{equation}
        \langle a,d\rangle\leq \langle a,h\rangle-\varepsilon,\forall d\in\bar{K}_{\mathbb{Z}}(x).\nonumber
    \end{equation}
    由于$K_{\mathbb{Z}}(d)$为锥,则由上式可推出
    \begin{equation}
        \langle a,d\rangle\leq 0,\forall d\in\bar{K}_{\mathbb{Z}}(x)~\text{且}~\langle a,h\rangle-\varepsilon\geq 0.\nonumber
    \end{equation}
    但另一方面,由$x^*-x\in K_{\mathbb{Z}}(x)$知$\langle a,h\rangle=\lim_{k\rightarrow\infty}\langle a,\frac{x^*-x}{\tau_k}\rangle\leq 0$,
    从而矛盾!
\end{proof}

\begin{theorem}\label{thm11:4}
    设$f:\mathbb{R}^n\rightarrow\mathbb{R}$在$\hat{x}$处可微, $\mathbb{Z}\subset\mathbb{R}^n$.若$\hat{x}$为$f$在$X$上的局部极小,则
    \begin{equation}
        \label{eq11:7}
        -\nabla f(\hat{x})\in [T_{\mathbb{Z}}(\hat{x})]^\circ.
    \end{equation}
    假设$f$为凸函数, $\mathbb{Z}$为凸集,若(\ref{eq11:7})式成立,则$\hat{x}$为$f$在$X$上的全局极小点.
\end{theorem}

\begin{proof}
    反设$-\nabla f(\hat{x})\notin [T_{\mathbb{Z}}(\hat{x})]^\circ$,则存在$d\in T_{\mathbb{Z}}(\hat{x})$使得
    \begin{equation}
        \langle -\nabla f(\hat{x}),d\rangle>0.\nonumber
    \end{equation}
    由$d$的定义可知,存在$\{x^k\}\subset\mathbb{Z}$及$\tau_k\rightarrow 0_+$使得
    \begin{equation}
        d=\lim_{k\rightarrow\infty}\frac{x^k-\hat{x}}{\tau_k},\nonumber
    \end{equation}
    由$\tau_k\rightarrow 0_+$可知$x^k\rightarrow\hat{x}$,再结合$f$在$\hat{x}$处的可微性知
    \begin{equation}
        f(x^k)=f(\hat{x})+\langle \nabla f(\hat{x}),x^k-\hat{x}\rangle+o(\|x^k-\hat{x}\|),\nonumber
    \end{equation}
    于是
    \begin{equation}
        \frac{f(x^k)-f(\hat{x})}{\tau_k}
        =
        \langle \nabla f(\hat{x}),\frac{x^k-\hat{x}}{\tau_k}\rangle
        +\frac{o(\|x^k-\hat{x}\|)}{\|x^k-\hat{x}\|}\cdot
        \frac{\|x^k-\hat{x}\|}{\tau_k}.\nonumber
    \end{equation}
    两边取极限可得
    \begin{equation}
        \lim_{k\rightarrow\infty}\frac{f(x^k)-f(\hat{x})}{\tau_k}=\langle \nabla f(\hat{x}),d\rangle<0,\nonumber
    \end{equation}
    这与$\hat{x}$为$f$在$X$上的局部极小点矛盾!\\
    反之,假设(\ref{eq11:7})式成立,由于对任意$y\in\mathbb{Z}$均有
    \begin{equation}
        y-\hat{x}\in K_{\mathbb{Z}}(\hat{x})\subset T_{\mathbb{Z}}(\hat{x}),\nonumber
    \end{equation}
    又$-\nabla f(\hat{x})\in [T_{\mathbb{Z}}(\hat{x})]^\circ$,
    由极锥定义知$\langle\nabla f(\hat{x}),y-\hat{x}\rangle\geq 0$,\\
    因此$f(y)\geq f(\hat{x})+\langle \nabla f(\hat{x}),y-\hat{x}\rangle\geq f(\hat{x})$,
    故$\hat{x}$是$f$在$X$上的全局极小点,证毕!
\end{proof}


\begin{corollary}\label{cor11:2}
    设$f$在$\hat{x}$处可微, $\mathbb{Z}\subset\mathbb{R}^n$,若$\hat{x}$为$f$在$X$处的局部极小,则必有
    \begin{equation}
        \label{eq11:8}
        \langle\nabla f(\hat{x}),y-\hat{x}\rangle\geq 0,\forall y\in\mathbb{Z},
    \end{equation}
    反之,对于凸的$f$和$\mathbb{Z}$,若(\ref{eq11:8})式成立,则$\hat{x}$为$f$在$X$上的全局极小点.
\end{corollary}

\begin{proof}
    证明与\cref{thm11:4}后半部分证明相同,此处从略!
\end{proof}

\begin{corollary}\label{cor11:3}
    设$\Omega\subset\mathbb{R}^n$为非空闭凸集, $x\in\mathbb{R}^n$.则$z=\Pi_\Omega(x)$当且仅当$z\in\Omega$且$\langle y-z,x-z\rangle\leq 0$, $\forall y\in\Omega$.
\end{corollary}

\begin{proof}
    $z=\Pi_\Omega(x)$当且仅当其为下述优化问题的解
    $$\begin{array}{cc}
            \min        & f(y):=\| y-x\|^2 \\
            \text{s.t.} & y\in\Omega.
        \end{array}$$
    由\cref{cor11:2}知$z=\Pi_\Omega(x)$当且仅当
    $$\langle\nabla f(z),y-z\rangle\geq 0, \forall y\in\Omega.$$
    将$\nabla f(z)=2(z-x)$代入,即证.
\end{proof}

\begin{example}\label{exa11:3}
    考虑优化问题:
    $$\begin{array}{cc}
            \min        & f(x)          \\
            \text{s.t.} & \| x\|\leq 1.
        \end{array}$$
    其中$f$为连续可微的凸函数,则$\hat{x}$为最优解当且仅当$\| \nabla f(\hat{x})\|=0$或存在$\lambda\geq 0$使得
    $$\nabla f(\hat{x})=\lambda \hat{x}\text{且}\|\hat{x}\|=1.$$
\end{example}

\begin{proof}
    由\cref{cor11:2}知, $\hat{x}$为最优解当且仅当对任意的$y$满足$\| y\|\leq 1$均有
    \begin{equation}\label{add11:1}
        \langle \nabla f(\hat{x}),y-\hat{x}\rangle\geq 0.
    \end{equation}
    若$\|\nabla f(\hat{x})\|=0$,上式显然成立;\\
    若$\|\nabla f(\hat{x})\|\neq 0$,则有
    \begin{equation}
        \begin{aligned}
            \|\nabla f(\hat{x})\| & =\sup\limits_{\| y\|\leq 1}\langle\nabla f(\hat{x}),-y\rangle\mathop{\leq}\limits^\text{(\ref{add11:1})}-\langle\nabla f(\hat{x}),\hat{x}\rangle\nonumber \\
                                  & \leq \|\nabla f(\hat{x})\|\cdot\| \hat{x}\|.\label{add11:2}
        \end{aligned}
    \end{equation}
    其中第二个不等式为Cauchy-Schwarz不等式,第一个不等式应用了(\ref{add11:1})式.\\
    由于$\|\hat{x}\|\leq 1$.据(\ref{add11:2})可知$\| \hat{x}\|=1$且$|\langle \nabla f(\hat{x}),\hat{x}\rangle|=\| \nabla f(\hat{x})\|\cdot\| \hat{x}\|$.后者表示Cauchy-Schwarz不等式取等号.也即$\nabla f(\hat{x})$与$\hat{x}$共线.从而存在$\lambda$, s.t. $\nabla f(\hat{x})=\lambda\hat{x}$.代入(\ref{add11:2})式可知$\lambda\leq 0$.证毕.
\end{proof}


\section{KKT条件}\label{sec11:3}
上一节,我们讨论了一般约束情形的优化条件,本节将考虑约束集由函数所确定情形的优化条件,该优化条件可以通过计算约束集切锥的极锥来得出.在优化领域,它们通常被称为Karush-Kuhn-Turker (KKT)条件,具体的优化问题为
\begin{equation}
    \label{eq11:9}
    \begin{aligned}
         & \min f(x)                     \\
         & s.t.\left\{\begin{aligned}
                          h_j(x)=0,j\in J \\
                          g_i(x)\leq 0,i\in I
                      \end{aligned}
        \right.
    \end{aligned}
\end{equation}
其中, $f,g_i,h_j:\mathbb{R}^n\rightarrow\mathbb{R}$均为连续可微的函数, $I,J$均为有限的指标集.若令
\begin{equation}
    \mathbb{Z}=\{x\in\mathbb{R}^n:g_i(x)\leq 0,h_j(x)=0,i\in I,j\in J\},\nonumber
\end{equation}
则优化问题(\ref{eq11:9})为上节所研究的一般约束优化的具体化.因此,若$\hat{x}$为(\ref{eq11:9})的最优解,则应用\cref{thm11:4}可知
\begin{equation}
    -\nabla f(\hat{x})\in [T_{\mathcal{Z}}(\hat{x})]^\circ.\nonumber
\end{equation}
为了推导关于$f,g_i,h_j$的最优化条件,我们需要详细地计算出$[T_{\mathcal{Z}}(\hat{x})]^\circ$.

\begin{definition}{活跃集}\label{def11:3}
    设$x\in\mathbb{Z}$,则$x$在$\mathbb{Z}$中的领域的形状将由$h_j(x)=0,j\in J$以及$g_i(x)=0,i\in I$共同确定,而$g_i(x)<0,i\in I$将不起作用,这些起作用的函数的指标构成$x$的活跃集,记为
    \begin{equation}
        \mathscr{A}(x)=\bigcup\{i\in I:g_i(x)=0\}.\nonumber
    \end{equation}
\end{definition}

\begin{definition}{线性化可行方向锥}\label{def11:4}
    设$x\in\mathbb{Z}$,记
    \begin{equation*}
        \mathscr{F}_{\mathbb{Z}}(x)=\left\{d\in\mathbb{R}^n:
        \begin{array}{cc}
            d^T\nabla g_i(x)\leq 0, & i\in I\cap\mathscr{A}(x), \\
            d^T\nabla h_j(x)=0,     & j\in J
        \end{array}
        \right\}.
    \end{equation*}
    则称$\mathscr{F}_{\mathbb{Z}}(x)$为$\mathbb{Z}$在$x$处的线性化可行方向锥.
\end{definition}

为了建立$\mathscr{F}_{\mathbb{Z}}(x)$与$T_{\mathbb{Z}}(x)$的联系,下面引入约束规格条件.

\begin{definition}\label{def11:5}
    设$x\in\mathbb{Z}$,若$\{\nabla g_i(x),\nabla h_j(x),i\in I\cap\mathscr{A}(x),j\in J\}$中的梯度向量线性无关,则称在该点处满足线性独立约束规格条件(linear independent constraint qualification),简记为LICQ条件.
\end{definition}

\begin{lemma}\label{lem11:3}
    设$x\in\mathbb{Z}$,则有
    \begin{enumerate}[(i)]
        \item $T_{\mathbb{Z}}(x)\subset\mathscr{F}_{\mathbb{Z}}(x)$;
        \item 若在$x$处成立LICQ条件,则$T_{\mathbb{Z}}(x)=\mathscr{F}_{\mathbb{Z}}(x)$.
    \end{enumerate}
\end{lemma}

\begin{proof}
    \begin{enumerate}[(i)]
        \item
              设$d\in T_{\mathbb{Z}}(x)$,则存在$\{x^k\}\subset\mathbb{Z},\tau_k\rightarrow 0_+$,使得
              \begin{equation}
                  \lim_{k\rightarrow 0}\frac{x^k-x}{\tau_k}=d.\nonumber
              \end{equation}
              任取$j\in J$,应用Taylor展式可知
              \begin{equation}
                  h_j(x^k)=h_j(x)+\langle\nabla h_j(x),x^k-x\rangle+o(\|x^k-x\|),\nonumber
              \end{equation}
              又$x,x^k\in\mathcal{Z}$可知$h_j(x^k)=h_j(x)=0$,因此$\langle\nabla h_j(x),x^k-x\rangle=o(\|x^k-x\|)$.\\
              于是,
              \begin{equation}
                  \begin{aligned}
                      d^T\nabla h_j(x)
                       & =\lim_{k\rightarrow \infty}\frac{\langle\nabla h_j(x),x^k-x\rangle}{\tau_k},                       \\
                       & =\lim_{k\rightarrow \infty}\frac{o(\|x^k-x\|)}{\|x^k-x\|}\cdot\frac{\|x^k-x\|}{\tau_k}=0.\nonumber
                  \end{aligned}
              \end{equation}
              再取$i\in I\cap \mathscr{A}(x)$,由Taylor展式
              \begin{equation}
                  g_i(x^k)=g_i(x)+\langle\nabla g_i(x),x^k-x\rangle+o(\|x^k-x\|),\nonumber
              \end{equation}
              于是
              \begin{equation}
                  \begin{aligned}
                      d^T\nabla g_i(x)
                       & =\lim_{k\rightarrow \infty}\frac{\langle\nabla g_i(x),x^k-x\rangle}{\tau_k} \\
                       & =\lim_{k\rightarrow \infty}\frac{g_i(x^k)-g_i(x)}{\tau_k}                   \\
                       & =\lim_{k\rightarrow \infty}\frac{g_i(x^k)}{\tau_k}\leq 0.\nonumber
                  \end{aligned}
              \end{equation}
              其中, $g_i(x^k)\leq 0,g_i(x)=0,i\in \mathscr{A}(x)\cap I$.\\
              综上可知, $d\in\mathscr{F}(x)$,从而(i)得证.
        \item
              为了简化并突显证明思想,假设$\mathbb{Z}=\{x:h(x)=0\}$,\\
              从而$\mathscr{F}_{\mathbb{Z}}(x)=\{d:d^T\nabla h(x)=0\}$.\\
              LICQ条件则等同于$\|\nabla h(x)\|\neq0$,只要证$\mathscr{F}_{\mathcal{Z}}(x)\subset T_{\mathbb{Z}}(x)$即可!\\
              设$d\in\mathscr{F}_{\mathbb{Z}}(x)$,为证$d\in T_{\mathbb{Z}}(x)$,需要寻找$x(\tau)\in\mathbb{Z}$,也即$h(x(\tau))=0$且
              \begin{equation}
                  \frac{x(\tau)-x}{\tau}\rightarrow d,\tau\rightarrow 0_+.\nonumber
              \end{equation}
              为此,设$x(\tau)=x+\tau d+\nabla h(x)\cdot u(\tau)$,其中$u(\tau)$为待定函数,\\
              将通过$h(\tau(x))=0$的限制进行确定.\\
              令$f(\tau,u)=h(x(\tau))=h(x+\tau d+\nabla h(x)\cdot u=0$,\\
              由于$f(0,0)=h(x)=0$以及$\frac{\partial f}{\partial u}|_0=\nabla h(x)^T\nabla h(x)\neq 0.$\\
              满足隐函数定理的条件,于是$\exists \varepsilon>0$,当$|\tau|<\varepsilon$时,存在连续可微的函数$u(\tau)$满足$u(0)=0$且
              $$f(\tau,u(\tau))=h(x+\tau d+\nabla h(x)u(\tau))=0, $$
              又$0=\frac{d}{d\tau}h(x(\tau))|_{\tau=0}=\nabla h(x)^T d+\nabla h(x)^T\nabla h(x)\dot{u}(0)$,\\
              可知$\dot{u}(0)=0$,于是$u(\tau)=u(0)+\dot{u}(0)\tau+o(\tau)=o(\tau)$,\\
              至此, $\frac{x(\tau)-x}{\tau}=\nabla h(x)u(\tau)\rightarrow 0,\tau\rightarrow0$,即证!
    \end{enumerate}
\end{proof}

\begin{example}{LICQ条件的必要性}\label{exa11:4}
    \begin{align*}
         & h_1(x_1,x_2)=x_1^2+(x_2-1)^2=0. \\
         & h_2(x_1,x_2)=x_2=0.
    \end{align*}
    则$X=\{(x_1,x_2)\in\mathbb{R}^2:h_1(x_1,x_2)=0,h_2(x_1,x_2)=0\}=\{(0,0)\}$.\\
    取$\hat{x}=\{(0,0)\}$则$T_X(\hat{x})=\{(0,0)\}$但$\mathcal{F}_X(\hat{x})=\{(t,0):t\in\mathbb{R}\}$.\\
    从而$T_X(x)\subsetneqq \mathcal{F}_X(x)$.\\
    容易验证,在$\hat{x}$处, $\nabla h_2(\hat{x})=\left(\begin{array}{cc}0\\1\end{array}\right)$, $\nabla h_1(\hat{x})=\left(\begin{array}{cc}0\\-2\end{array}\right)$.可知$\{\nabla h_2(\hat{x}),\nabla h_1(\hat{x})\}$线性相关.因而LICQ条件不成立.
\end{example}

\begin{figure}[!htb]\label{fg11:1}
    \centering
    \includegraphics[width=0.8\textwidth]{image/fg19.png}
\end{figure}

\begin{theorem}{KKT条件}\label{thm11:5}
    考虑最优化问题(\ref{eq11:9}),假设$\hat{x}$为其局部最优点, (也即$\hat{x}\in\mathbb{Z}$且为$f$在$\mathbb{Z}$上的局部极小点),则有参数$\lambda_i\geq 0,i\in I,\mu_j\in\mathbb{R},j\in J$,且$\hat{x}$处成立LICQ条件,使得
    \begin{align}
        \label{eq11:10}
         & 0=\nabla f(\hat{x})+\sum_{i\in I}\lambda_i\nabla g_i(\hat{x})+\sum_{j\in J}\mu_j\nabla h(\hat{x}), \\
         & \label{eq11:11}
        0=\lambda_i g_i(\hat{x}).
    \end{align}

\end{theorem}

\begin{proof}
    令$A^T=[\nabla g_i(\hat{x}),\nabla h_j(\hat{x}),-\nabla h_j(\hat{x})]_{j\in J}^{i\in I\cap \mathscr{A}(\hat{x})}$,则$\mathscr{F}_{\mathcal{Z}}(\hat{x})=\{d\in\mathbb{R}^n:Ad\leq 0\}.$\\
    应用Farkas引理可知
    \begin{equation*}
        \begin{aligned}
            \relax [\mathscr{F}_{\mathbb{Z}}(\hat{x})]^\circ
             & =\{y\in\mathbb{R}^n:y=A^T\lambda,\lambda\geq 0\},                                        \\
             & =\{y\in\mathbb{R}^n:y=\sum_{i\in I\cap \mathscr{A}(\hat{x})}\lambda_i\nabla g_i(\hat{x})
            +\sum_{j\in J}(\lambda_{j_{+}}-\lambda_{j_{-}})\nabla h_j(\hat{x}),\lambda\geq 0\},         \\
             & =\{y\in\mathbb{R}^n:y=\sum_{i\in I\cap \mathscr{A}(\hat{x})}\lambda_i\nabla g_i(\hat{x})
            +\sum_{j\in J}\mu_j\nabla h_j(\hat{x}),\lambda_i\geq 0,\mu_j\in\mathbb{R}\}.
        \end{aligned}
    \end{equation*}
    由\cref{lem11:3}及\cref{thm11:4}知
    \begin{equation*}
        -\nabla f(\hat{x})\in [T_{\mathbb{Z}}(\hat{x})]^\circ=[\mathscr{F}_{\mathbb{Z}}(\hat{x})]^\circ,\nonumber
    \end{equation*}
    于是, $0=\nabla f(\hat{x})+\sum_{i\in I\cap \mathscr{A}(\hat{x})}\lambda_i\nabla g_i(\hat{x})
        +\sum_{j\in J}\mu_j\nabla h_j(\hat{x})$,\\
    该式可等价地写成(\ref{eq11:10})和(\ref{eq11:11}),证毕!
\end{proof}

若引入Lagrange函数
\begin{equation}
    L(x,\lambda,\mu)=f(x)+\sum_{i\in I}\lambda_i g_i(x)+\sum_{j\in J}\mu_j h_j(x).\nonumber
\end{equation}
则(\ref{eq11:9})式可简写成
\begin{equation}
    \label{eq11:12}
    \nabla_x L(\hat{x},\lambda,\mu)=0.
\end{equation}
最后,我们论述KKT条件在凸优化中的必要性.

\begin{theorem}\label{thm11:6}
    假设最优化问题(\ref{eq11:9})中的$f,g_i,i\in I$为凸函数,而$h_j,j\in J$为仿射函数.若$\hat{x}\in X$满足KKT条件(\ref{eq11:10})-(\ref{eq11:11}),则$\hat{x}$为$f$在$X$上的全局极小点.
\end{theorem}

\begin{proof}
    由于$\lambda\geq 0,f,g_i$均为凸函数, $h_j$为仿射函数可知$L(x,\lambda,\mu)$式关于$x$的凸函数,\\
    由(\ref{eq11:11})可知, $\hat{x}$为$L(x,\lambda,\mu)$的全局极小点,\\
    从而
    $f(\hat{x})=L(\hat{x},\lambda,\mu)\leq L(x,\lambda,\mu),\forall x\in\mathbb{R}^n.$\\
    而当$x\in\mathbb{Z}$时, $L(x,\lambda,\mu)\leq f(x).$\\
    故$f(\hat{x})\leq f(x),\forall x\in\mathcal{Z}$,即证!
\end{proof}

\begin{example}{到仿射集的投影}\label{exa11:5}
    设$A\in\mathbb{R}^{m\times n},b\in\mathbb{R}^n$且$A$行满秩,给定$z\in\mathbb{R}^n$,考虑
    \begin{equation}
        \label{eq11:13}
        \begin{aligned}
            \min \|x-z\|^2, \\
            \text{s.t.} Ax=b.
        \end{aligned}
    \end{equation}
    令$f(x)=\|x-z\|^2$, $h_i(x)=a_i^T x-b_i$, $i=1,\cdots,m$,其中$a_i$为$A$的第$i$行向量,则投影问题(\ref{eq11:13})可写成(\ref{eq11:9})的形式.\\
    据KKT条件可知,存在参数向量$\mu\in\mathbb{R}^n$使得
    \begin{equation}
        0=\nabla f(x)+\sum_{i=1}^m\mu_i a_i.\nonumber
    \end{equation}
    也即
    \begin{equation}
        \label{eq11:14}
        2(x-z)+A^T\mu=0.
    \end{equation}
    从而$AA^T\mu=2A(z-x)=2(Az-b)$.此处应用了$x$的可行性,即$Ax=b$.因此,
    \begin{equation}
        \mu=2(AA^T)^{-1}(Az-b).\nonumber
    \end{equation}
    代入(\ref{eq11:14})可得
    \begin{equation}
        x=z-A^T(AA^T)^{-1}(Az-b).\nonumber
    \end{equation}
    特别地,当$A=a^T\in\mathbb{R}^{1\times n}$时,
    \begin{equation}
        x=z-\frac{a^T z-b}{\|a\|^2}\cdot a.\nonumber
    \end{equation}
    而当$z=0$时,
    \begin{equation}
        x=A^T(AA^T)^{-1}Ab=A^+b.\nonumber
    \end{equation}
    其中$A^+$为Moore-Penrose逆,此时的解为(\ref{eq11:13})的最小二乘解!
\end{example}

\begin{problemset}
    \item 设$f(x)=\frac{1}{2}x^TAx$,其中$A\in\mathbb{R}^{n\times n}$为半正定矩阵.则$\hat{x}$为最优化问题
    $$\begin{array}{cc}
            \min        & f(x)         \\
            \text{s.t.} & \| x\|\leq 1
        \end{array}$$
    的解当且仅当$A\bar{x}=0$或$\hat{x}$为$A$对应最小正特征值的特征向量.
    \item 设$f:\mathbb{R}^n\rightarrow\mathbb{R}$为连续可微的凸函数, $a\in\mathbb{R}^n$为每个分量$a_i$均大于零的向量.考虑最优化问题$$\begin{array}{cc}
            \min        & f(x)     \\
            \text{s.t.} & a^Tx= 1.
        \end{array}$$
    证明$\hat{x}$为最优解的充要条件为
    $$\frac{1}{a_1}\cdot\frac{\partial f}{\partial x_1}(\hat{x})=\frac{1}{a_2}\cdot\frac{\partial f}{\partial x_2}(\hat{x})=\cdots=\frac{1}{a_n}\cdot\frac{\partial f}{\partial x_n}(\hat{x}).$$
    \item 试推导下述约束优化的对偶问题$$\begin{array}{cc}
            \min        & f(x):=\| x\|_1+\frac{\alpha}{2}\| x\|^2 \\
            \text{s.t.} & Ax=b,x\in\mathbb{R}^n.
        \end{array}$$
    其中$A\in\mathbb{R}^{m\times n}$, $b\in\mathbb{R}^m$, $\alpha>0$.并证明对偶目标函数$-L(\lambda)$满足限制强凸性.
\end{problemset}

\chapter{凸规划的对偶}\label{chap:12}
\section{凸优化问题与条件}\label{sec12:1}
考虑如下形式得凸优化问题
\begin{equation}
    \label{eq12:1}
    \begin{aligned}
         & \bar{f}:=\min_{x\in\mathbb{R}^n} f(x),                \\
         & \text{s.t. }x\in\mathbb{Z},g_i(x)\leq 0,i=1,\cdots m.
    \end{aligned}
\end{equation}
其中, $f,g_i:\mathbb{R}^n\rightarrow\mathbb{R}$均为凸函数, $\mathbb{Z}\subset\mathbb{R}^n$为凸集.

\begin{definition}{Slater条件}\label{def12:1}
    设存在$x\in\mathbb{Z}$使得
    \begin{equation*}
        g_i(x)<0,i=1,\cdots,m.
    \end{equation*}
    则称(\ref{eq12:1})满足Slater条件.
\end{definition}

\section{备择定理}\label{sec12:2}
\begin{theorem}\label{thm12:1}
    假设(\ref{eq12:1})满足Slater条件, $c\in\mathbb{R}$,则下述命题有且仅有一个成立:
    \begin{enumerate}[(i)]
        \item 存在$x$使得
              \begin{equation*}
                  \left\{
                  \begin{aligned}
                       & f(x)<c                    \\
                       & g_i(x)\leq 0,i=1,\cdots,m \\
                       & x\in\mathbb{Z}.
                  \end{aligned}
                  \right.
              \end{equation*}
        \item 存在$\lambda\geq 0$使得
              \begin{equation*}
                  \inf_{x\in\mathbb{Z}}(f(x)+\sum_{i=1}^m\lambda_i g_i(x))\geq c.
              \end{equation*}
    \end{enumerate}
\end{theorem}


\begin{proof}
    若(i)成立则对$\forall \lambda\geq 0$恒有
    \begin{equation*}
        \inf_{x\in\mathbb{Z}}(f(x)+\sum_{i=1}^m\lambda_i g_i(x))
        \leq
        \inf_{x\in\mathbb{Z}}f(x)\leq f(x)<c.
    \end{equation*}
    也即(ii)不成立.\\
    下证(i)不成立$\Rightarrow$(ii)不成立,\\
    令$F(x):=(f(x),g_1(x),\cdots,g_m(x))$,
    $S:=\{u=(u_0,\cdots,u_m):\exists x\in\mathbb{Z},F(x)\leq u\}$,
    $T:=\{u=(u_0,\cdots,u_m):u_0<c,u_1\leq 0,\cdots,u_m\leq 0\}$.\\
    则$S$与$T$均为非空凸集,且$S\cap T= \emptyset$(否则(i)成立).\\
    由分离定理弱化形式第\ref{chap:3}章\cref{cor3:3}知存在
    非零向量$a=(a_0,\cdots,a_m)\in\mathbb{R}^{m+1}$使得
    \begin{equation}
        \label{eq12:2}
        \langle a,u\rangle\leq \langle a,v\rangle,\forall u\in T,v\in S.
    \end{equation}
    从而必有$a_i\geq 0,\forall i\in 0,1,\cdots,m$.否则可取$u\in T$使得$\langle a,u\rangle\rightarrow+\infty$,因此由(\ref{eq12:2})式知
    \begin{equation}
        \label{eq12:3}
        \sup_{u\in T}\langle a,u\rangle=a_0 c\leq \inf_{v\in S}\langle a,v\rangle.
    \end{equation}
    往证$a_0>0$,否则$a_0=0$,又由$a\neq 0$知
    \begin{equation*}
        (a_1,\cdots,a_m)\neq 0.
    \end{equation*}
    此时, $0=a_0 c\leq\inf_{v\in S}\langle a,v\rangle \leq \inf_{x\in \mathbb{Z}}\sum_{i=1}^m a_i g_i(x)$
    但由Slater条件及$a\geq 0$且$a$为非零向量知
    $\exists x\in\mathbb{Z}$, s.t. $\sum_{i=1}^m a_i g_i(x)<0$,矛盾!

    最后由(\ref{eq12:3})式可知
    \begin{equation*}
        c\leq \inf_{v\in S}\langle \frac{1}{a_0}a,v\rangle=\inf_{x\in\mathbb{Z}}(f(x)+\sum_{i=1}^m \frac{a_i}{a_0} g_i(x)).
    \end{equation*}
    于是, $\lambda_i=\frac{a_i}{a_0}\geq 0,i=1,\cdots,m$为(ii)的解,证毕!
\end{proof}

\section{Lagrange对偶}\label{sec12:3}
在备择定理中,若取
\begin{equation*}
    c_{\lambda}=\inf_{x\in\mathbb{Z}}(f(x)+\sum_{i=1}^m\lambda_i g(x)),
\end{equation*}
其中$\lambda_i\geq0,i=1,\cdots,m$,则$c_{\lambda}$为最优值$\bar{f}$的下界.事实上,记
\begin{equation*}
    \hat{\mathbb{Z}}:=\{x\in\mathbb{Z}:g_i(x)\leq 0,i=1,\cdots,m\},
\end{equation*}
则由备择定理知,当$x\in\hat{\mathbb{Z}}$时, $f(x)\geq c_{\lambda}$,也即
\begin{equation*}
    \bar{f}=\inf_{x\in\hat{\mathbb{Z}}}f(x)\geq C_{\lambda}.
\end{equation*}
为得到最佳下界估计,自然考虑极大化$c_{\lambda}$,其中$\lambda$为变量,因此推出如下的对偶问题:
\begin{align}
    \label{eq12:4}
     & \sup_{\lambda}\inf_{x\in\mathbb{Z}}(f(x)+\sum_{i=1}^m\lambda_i g(x))\nonumber \\
     & \textrm{s.t. }\lambda_i\geq 0,i=1,\cdots,m.
\end{align}
令
\begin{align}
     & L(x,\lambda):=f(x)+\sum_{i=1}^m\lambda_i g(x),\nonumber \\
     & L(\lambda):=\inf_{x\in\mathbb{Z}}L(x,\lambda),\nonumber
\end{align}
则问题(\ref{eq12:4})可简化为
\begin{align}
    \label{eq12:5}
    \bar{L} & :=\sup_{\lambda\in\mathbb{R}^m} L(\lambda),\nonumber \\
            & \text{s.t. }\lambda\geq 0.
\end{align}

\begin{theorem}{对偶定理}\label{thm12:2}
    \begin{enumerate}[(i)]
        \item 弱对偶关系:$\bar{L}\leq\bar{f}$;
        \item 强对偶关系:假设$\bar{f}>-\infty$且凸优化问题(\ref{eq12:1})满足slater条件,则存在$\bar{\lambda}\geq0$使得$L(\bar{\lambda})=\bar{L}=\bar{f}$.
    \end{enumerate}
\end{theorem}

\begin{proof}
    \begin{enumerate}[(i)]
        \item 由先前讨论可知
              \begin{equation*}
                  \bar{f}\geq c_{\lambda}=\inf_{x\in\mathbb{Z}}L(x,\lambda)=L(\lambda),\forall \lambda\geq 0.
              \end{equation*}
              从而, $\bar{f}\geq \sup\limits_{\lambda\geq 0}L(\lambda)=\bar{L}$.
        \item 考虑带约束的不等式方程组
              \begin{equation*}
                  \left\{
                  \begin{aligned}
                       & f(x)<\bar{f}              \\
                       & g_i(x)\leq 0,i=1,\cdots,m \\
                       & x\in\mathbb{Z}.
                  \end{aligned}
                  \right.
              \end{equation*}
              由$\bar{f}$的最优性知,不存在$x$满足上述方程组.因此,由备择定理可知必存在$\bar{\lambda}\geq 0$使得$\bar{L}\geq L(\bar{\lambda})=\inf_{x\in\mathbb{Z}}L(x,\bar{\lambda})\geq\bar{f}$.
              再结合(i)可知$\bar{L}=L(\lambda)=\bar{f}$,证毕!
    \end{enumerate}
\end{proof}

\begin{problemset}
    \item 试推导二次规划的对偶问题
    \begin{align}
         & \min_x f(x)=\frac{1}{2}x^T Ax+b^T x\tag{P}                   \\
         & \text{s.t. }g_i(x)=-c_i^T x+d_i\leq 0,i=1,\cdots,m.\nonumber
    \end{align}
    \begin{align}
         & \max_{\lambda,t} \{-\frac{1}{2}t^T At+d^T\lambda\}\tag{D} \\
         & \text{s.t. }C^T\lambda+At=b,\lambda\geq 0.\nonumber
    \end{align}
    其中$A\geq 0,
        C=\left(\begin{array}{c}
            c_1^T  \\
            \vdots \\
            c_m^T
        \end{array}\right),
        d=\left(\begin{array}{c}
            d_1    \\
            \vdots \\
            d_m
        \end{array}
        \right).
    $
\end{problemset}


\chapter{梯度下降法}\label{chap:13}
本章介绍梯度下降法及其Nesterov加速在求解无约束凸优化问题中的收敛理论.同时,介绍一类梯度下降算法的变体——镜像算法.

\section{问题与算法}\label{sec13:1}
设$f:\mathbb{R}^n\rightarrow\mathbb{R}$为$L$-光滑的凸函数,我们考察优化问题
\begin{equation}\label{eq13:1}
    \mathop{\text{minimize}}\limits_{x\in\mathbb{R}^n} f(x),
\end{equation}
及如下的梯度法格式
\begin{equation}\label{eq13:2}
    x^{k+1}=x^k-\tau_k\cdot\nabla f(x^k),
\end{equation}
其中$\tau_k>0$为步长参数.\\
将(\ref{eq13:2})式代入$L$-光滑条件:
\begin{equation}
    \label{eq13:3}
    f(y)\leq  f(x)+\langle \nabla f(x),y-x\rangle+\frac{L}{2}\|y-x\|^2,
\end{equation}
可推出下述的基本引理(取$y=x^{k+1},x=x^k$).

\begin{lemma}\label{lem13:1}
    梯度法格式(\ref{eq13:2})满足如下充分下降性质:
    \begin{equation}
        f(x^{k+1})-f(x^k)\leq -\tau_k (1-\frac{L}{2}\tau_k)\|\nabla f(x^k)\|^2,\nonumber
    \end{equation}
    或
    \begin{equation}\label{eq13:4}
        f(x^k)-f(x^{k+1})\geq \tau_k (1-\frac{L}{2}\tau_k)\|\nabla f(x^k)\|^2.
    \end{equation}
\end{lemma}

该下降性质/引理启发我们选取合适的步长$\tau_k$使(\ref{eq13:4})尽可能大.
\par 方式一:常数步长$\tau_k=\bar{\tau}$满足$\tau\in (0,\frac{2}{L})$.则(\ref{eq13:4})右边有正的下降量.
为了使下降最大,可最大化$\tau (1-\frac{L}{2}\tau)$,从而推出$\tau=\frac{1}{L}$,此时(\ref{eq13:4})式变为:
\begin{equation}
    f(x^k)-f(x^{k+1})\geq \frac{1}{2L}\|\nabla f(x^k)\|^2.\nonumber
\end{equation}
\par 方式二:选取步长$\tau_k$使得$\tau_k=\mathop{\text{argmin}}\limits_{\tau\geq 0}f(x^k-\tau\nabla f(x^k))$.该方法称为精确线搜索方式.与常数步长相比,显然有
$$f(x^k-\tau_k\nabla f(x^k))\leq f(x^k-\frac{1}{L}\nabla f(x^k)).$$
因而,
$$f(x^k)-f(x^{k+1})\geq f(x^k)-f(x^k-\frac{1}{L}\nabla f(x^k))\geq \frac{1}{2L}\| \nabla f(x^k)\|^2.$$
~\par 在实际应用中,更常用的一种方式是backtracking线搜索方法/技术(L未知且难以估计).首先设定参数$\beta <1$(尽可能大).\\
设$\tau_k$的初始值为$\sigma$.若$\sigma$足够小,满足$\sigma^{-1}>L$.由(\ref{eq13:3})可知
\begin{equation}\label{eq13:5}
    f(y)\leq f(x)+\langle \nabla f(x),y-x\rangle+\frac{1}{2\sigma}\| y-x\|^2.
\end{equation}
此时,将$y=x^{k+1}=x^k-\sigma \nabla f(x^k)$, $x=x^k$代入上式可得
\begin{equation}\label{eq13:6}
    f(x^{k+1})\leq f(x^k)-\frac{\sigma}{2}\| \nabla f(x^k)\|^2.
\end{equation}
类似于(\ref{eq13:5})和(\ref{eq13:6})推出
$$f(x^k)-f(x^{k+1})\geq \frac{\tau_k}{2}\| \nabla f(x^k)\|^2.$$
该步长必满足(第二式是因为$\tau_k$确定的前一步为$\frac{\tau_k}{\beta}$不满足$(\frac{\tau_k}{\beta})^{-1}>L$)
$$\tau_k\geq \sigma\text{且}(\frac{\tau_k}{\beta})^{-1}\leq L.$$
也即$\sigma\leq \tau_k\leq \frac{\beta}{L}<\frac{1}{L}$.\\
因此, $f(x^k)-f(x^{k+1})\geq \frac{\sigma}{2}\| \nabla f(x^k)\|^2$.该下降量小于取常数步长$\frac{1}{L}$的下降量$\frac{1}{2L}\| \nabla f(x^k)\|^2$.\\
综上可知,当步长按上述方式选取时,存在常数$c>0$,使得
\begin{equation}\label{eq13:7}
    f(x^k)-f(x^{k+1})\geq c\cdot\| \nabla f(x^k)\|^2.
\end{equation}

\begin{theorem}\label{thm13:1}
    设$f:\mathbb{R}^n\rightarrow\mathbb{R}$满足$L$-光滑条件且下有界.也即存在常数$\ell \in\mathbb{R}$,使得
    $$\ell <f(y)<f(x)+\langle \nabla f(x),y-x\rangle+\frac{L}{2}\| y-x\|^2.$$
    令$\{x^k\}$为梯度法(\ref{eq13:2})应用于$f$生成的序列,其中步长参数$\tau_k$可选为常数步长$\bar{\tau}\in (0,\frac{1}{L})$或按精确线搜索或backtracking线搜索.则有
    \begin{equation}\label{eq13:8}
        \lim_{k\rightarrow\infty}\| \nabla f(x^k)\|=0.
    \end{equation}
    且\begin{equation}\label{eq13:9}
        \min_{k=0,1,\cdots,n}\|\nabla f(x^k)\|\leq \frac{c_1}{n+1}.
    \end{equation}
    其中$c_1$为常数.
\end{theorem}

\begin{proof}
    由(\ref{eq13:7})可知序列$\{f(x^k)\}$单调下降且有下界$\ell$.从而必为收敛序列,其极限记为$\bar{f}$.因而
    $$f(x^k)-f(x^{k+1})\rightarrow 0,k\rightarrow \infty.$$
    再结合(\ref{eq13:7})可知结论(\ref{eq13:8})成立.\\
    现对(\ref{eq13:7})从$k=0,1,\cdots,n$求和可得
    $$f(x^0)-f(x^{n+1})\geq c\cdot\sum\limits^n_{k=0}\| \nabla f(x^k)\|^2.$$
    又因为$f(x^{n+1})\geq \bar{f}$.于是,
    \begin{equation*}
        \begin{aligned}
            f(x^0)-\bar{f} & \geq c\cdot\sum\limits^n_{k=0}\|\nabla f(x^k)\|^2                  \\
                           & \geq c\cdot n\cdot\min\limits_{k=0,1,\cdots,n}\|\nabla f(x^k)\|^2.
        \end{aligned}
    \end{equation*}
    令$c_1=\frac{f(x^0)-\bar{f}}{c}$.即可推出结论(\ref{eq13:9}).证毕.
\end{proof}
~\par
上述结果未用到凸性.下面,将基于凸性得到更丰富的收敛理论.为简单起见,仅考虑取常数步长$\tau_k\equiv \tau\in(0,\frac{1}{L}]$的情形.并假设$X^*\triangleq \mathop{\text{Argmin}}\{f(x):x\in\mathbb{R}^n\}\neq\emptyset$,取最优解$x^*$并记$\bar{f}=f(x^*)$.设$\{x^k\}$为常数步长$\tau_k\equiv \bar{\tau}\in(0,\frac{1}{L}]$梯度法生成的序列.则它必为极小化序列.

\begin{theorem}{函数值的收敛}\label{thm13:2}
    设$f:\mathbb{R}^n\rightarrow\mathbb{R}$为满足$L$-光滑条件的凸函数.则有
    $$f(x^k)-\bar{f}\leq \frac{\| x^0-x^*\|^2}{2\tau k}.$$
\end{theorem}

\begin{proof}
    由$L$-光滑性知:
    \begin{equation}\label{eq13:10}
        f(x^{k+1})\leq f(x^k)+\langle \nabla f(x^k),x^{k+1}-x^k\rangle+\frac{L}{2}\| x^{k+1}-x^k\|^2.
    \end{equation}
    由$f$的凸性:
    $$f(x^{k})\leq f(x^*)+\langle \nabla f(x^k),x^k-x^*\rangle.$$
    将其代入(\ref{eq13:10})式可得
    \begin{equation*}
        \begin{aligned}
            f(x^{k+1}) & \leq f(x^*)+\langle \nabla f(x^k),x^{k+1}-x^*\rangle+\frac{L}{2}\| x^{k+1}-x^k\|^2                  \\
                       & =\bar{f}+\langle \tau^{-1}(x^k-x^{k+1}),x^{k+1}-x^*\rangle+\frac{L}{2}\| x^{k+1}-x^k\|^2            \\
                       & \leq \bar{f}+\frac{1}{\tau}\langle x^k-x^{k+1},x^{k+1}-x^*\rangle+\frac{1}{2\tau}\| x^{k+1}-x^k\|^2 \\
                       & =\bar{f}+\frac{1}{2\tau}(\| x^k-x^*\|^2-\| x^{k+1}-x^*\|^2).
        \end{aligned}
    \end{equation*}
    于是,
    \begin{equation}\label{eq13:11}
        \| x^{k+1}-x^*\|^2-\| x^k-x^*\|^2\leq 2\tau (\bar{f}-f(x^{k+1})).
    \end{equation}
    对上式从$k=0$到$n-1$求和得
    $$\| x^n-x^*\|^2-\| x^0-x^*\|^2\leq 2\tau\sum\limits^{n-1}_{k=0}(\bar{f}-f(x^{k+1}))\leq 2\tau\cdot n\cdot(\bar{f}-f(x^n)).$$
    此处应用$\{f(x^k)\}$的单调下降性.\\
    从而$$f(x^n)-\bar{f}\leq \frac{\| x^0-x^*\|^2-\| x^n-x^*\|^2}{2\tau n}\leq \frac{\| x^0-x^*\|^2}{2\tau n}.$$证毕.
\end{proof}

\begin{remark}
    当$\tau=\frac{1}{L}$时, $f(x^k)-\bar{f}\leq \frac{L\| x^0-x^*\|^2}{2k}$.
\end{remark}

\begin{theorem}{序列的收敛}\label{thm13:3}
    设$f:\mathbb{R}^n\rightarrow\mathbb{R}$为$L$-光滑的凸函数.则序列$\{x^k\}$收敛到一个最优解.
\end{theorem}

\begin{proof}
    由不等式(\ref{eq13:11})及$\bar{f}$的最优性知
    \begin{equation}\label{eq13:12}
        \| x^{k+1}-x^*\|\leq \| x^k-x^*\|, \forall x^*\in X^*.
    \end{equation}
    从而, $\| x^k-x^*\|\leq \| x^0-x^*\|$, $\forall k\geq 0$.可知, $\{x^k\}$为有界序列.因而有收敛子列,记为
    $$x^{k_i}\rightarrow \tilde{x},i\rightarrow\infty.$$
    由\cref{thm13:2}可知$$f(x^{k_i})-\bar{f}\rightarrow 0.$$
    从而$f(\tilde{x})=\lim\limits_{i\rightarrow 0}f(x^{k_i})=\bar{f}$.因此, $\tilde{x}\in X^*$.再结合(\ref{eq13:12})式知
    $$\| x^{k+1}-\tilde{x}\|\leq \| x^k-\tilde{x}\|.$$
    又子序列$\{\| x^{k_i}-\tilde{x}\|\}$收敛到零.进而可知$\{\| x^k-\tilde{x}\|\}$亦收敛到零.也即
    $$\lim\limits_k x^k=\tilde{x}\in X^*.$$
    证毕.
\end{proof}

\begin{theorem}{梯度的收敛}\label{thm13:4}
    设$f:\mathbb{R}^n\rightarrow\mathbb{R}$为光滑的凸函数.则有$\{\| \nabla f(x^k)\|\}$单调下降且
    $$\| \nabla f(x^k)\|^2\leq \frac{2\left(f(x^0)-\bar{f}\right)}{(2k+1)\tau}.$$
\end{theorem}

\begin{proof}
    首先,在第9\ref{chap:9}章中的\cref{thm9:2}中已证明$L$-光滑+凸性等价于:
    \begin{equation}\label{eq13:13}
        f(y)-f(x)-\langle \nabla f(x),y-x\rangle\geq \frac{1}{2L}\| \nabla f(y)-\nabla f(x)\|^2.
    \end{equation}
    或等价于
    \begin{equation}\label{eq13:14}
        \langle \nabla f(x)-\nabla f(y),x-y\rangle \geq \frac{1}{L}\| \nabla f(x)-\nabla f(y)\|^2.
    \end{equation}
    令$\mathcal{C}_k:=\tau\cdot k\| \nabla f(x^k)\|^2+f(x^k)$.往证
    $$\mathcal{C}_{k+1}\leq \mathcal{C}_k,\forall k\geq 0.$$
    由定义,
    $$\mathcal{C}_{k+1}-\mathcal{C}_k= \tau(k+1)\| \nabla f(x^{k+1})\|^2-\tau k\|\nabla f(x^k)\|^2+f(x^{k+1})-f(x^k).$$
    不等式(\ref{eq13:13})取$x=x^{k+1}=x^k-\tau\cdot\nabla f(x^k)$及$y=x^k$并注意到$\tau\leq \frac{1}{L}$.可知,
    \begin{equation*}
        \begin{aligned}
            f(x^{k+1})-f(x^k) & \leq -\tau\langle \nabla f(x^k),\nabla f(x^{k+1})\rangle-\frac{1}{2L}\|\nabla f(x^k)-\nabla f(x^{k+1})\|^2   \\
                              & \leq -\tau\langle \nabla f(x^k),\nabla f(x^{k+1})\rangle-\frac{\tau}{2}\|\nabla f(x^k)-\nabla f(x^{k+1})\|^2 \\
                              & =-\frac{\tau}{2}\|\nabla f(x^{k+1})\|^2-\frac{\tau}{2}\|\nabla f(x^k)\|^2.
        \end{aligned}
    \end{equation*}
    于是,
    $$\mathcal{C}_{k+1}-\mathcal{C}_k\leq \tau(k+\frac{1}{2})(\|\nabla f(x^{k+1})\|^2-\|\nabla f(x^k)\|^2).$$
    只需证明$\|\nabla f(x^{k+1})\|\leq \| \nabla f(x^k)\|$.不妨设$\| \nabla f(x^k)\|>0$.
    由不等式(\ref{eq13:14})取$x=x^{k+1}$, $y=x^k$并注意到$\tau\leq \frac{1}{L}$.可知,
    $$-\tau\langle \nabla f(x^{k+1})-\nabla f(x^k),\nabla f(x^k)\rangle\geq \tau\|\nabla f(x^{k+1})-\nabla f(x^k)\|^2.$$
    化简上式可得,
    $$\|\nabla f(x^{k+1})\|^2\leq \langle\nabla f(x^{k+1}),\nabla f(x^k)\rangle\leq \|\nabla f(x^{k+1})\|\cdot\|\nabla f(x^k)\|.$$
    因此, $\|\nabla f(x^{k+1})\|\leq \|\nabla f(x^k)\|$.\\
    现由$C^k$的单调性可知$\mathcal{C}_k\leq \mathcal{C}_0$.因而
    \begin{equation*}
        \begin{aligned}
            \tau\cdot k\|\nabla f(x^k)\|^2 \leq f(x^0)-f(x^k)=f(x^0)-f(x^*)+f(x^*)-f(x^k).
        \end{aligned}
    \end{equation*}
    在(\ref{eq13:13})式中取$x=x^*$, $y=x^k$可得出$$f(x^k)-f(x^*)\geq \frac{1}{2L}\|\nabla f(x^k)\|^2\geq \frac{\tau}{2}\| f(x^k)\|^2.$$
    结合最后两式可推出最终结论.证毕.
\end{proof}

\section{线性收敛理论}\label{sec13:2}
为了推导更强的收敛结果,我们在$L$-光滑与凸的基础上,再添加强凸性.具体地,最优化问题为:
\begin{equation}\label{eq13:15}
    \begin{aligned}
         & \bar{f}:=\min f(x),            \\
         & \text{ s.t. }x\in\mathbb{R}^n.
    \end{aligned}
\end{equation}
其中, $f:\mathbb{R}^n\rightarrow\mathbb{R}$为$L$-光滑且$\mu$-强凸的,或等价地, $f$满足下述不等式:对$\forall x,y\in\mathbb{R}^n$,
\begin{equation}\label{eq13:16}
    \langle \nabla f(x)-\nabla f(y),x-y\rangle\geq \frac{L\mu}{L+\mu}\| x-y\|^2+\frac{1}{L+\mu}\| \nabla f(x)-\nabla f(y)\|^2.
\end{equation}
\begin{equation}\label{eq13:17}
    f(y)\geq f(x)+\langle\nabla f(x),y-x\rangle+\frac{1}{2L}\|\nabla f(x)-\nabla f(y)\|^2+\frac{\mu L}{2(L-\mu)}\| x-y-\frac{1}{L}(\nabla f(x)-\nabla f(y))\|^2.
\end{equation}
不同于一般凸优化,强凸优化(\ref{eq13:15})的最优解,记为$x^*$,存在且唯一.先说明存在性,由强凸性可知
\begin{equation*}
    \begin{aligned}
        f(x) & \geq f(x_0)+\langle \nabla f(x_0),x-x_0\rangle+\frac{\mu}{2}\| x-x_0\|^2                          \\
             & =f(x_0)-\frac{1}{2\mu}\|\nabla f(x_0)\|^2+\frac{\mu}{2}\| x-(x_0-\frac{1}{\mu}\nabla f(x_0))\|^2.
    \end{aligned}
\end{equation*}
于是,当$\frac{\mu}{2}\| x-(x_0-\frac{1}{\mu}\nabla f(x_0))\|^2-\frac{1}{2\mu}\|\nabla f(x_0)\|^2>0$时, $$f(x)>f(x_0).$$
因此,
\begin{equation*}
    \begin{aligned}
        Y:=\text{Levl}(f,f(x_0)) & :=\{x:f(x)\leq f(x_0)\}                                                     \\
                                 & \subseteq O(x_0-\frac{1}{\mu}\nabla f(x_0),\frac{1}{\mu}\|\nabla f(x_0)\|).
    \end{aligned}
\end{equation*}
后者为有界界,因而$Y$有界.注意到
$$\bar{f}=\min\limits_{x\in\mathbb{R}^n}f(x)=\min\limits_{x\in Y}f(x).$$
又$f$凸因而连续,由Weierstrass定理知,最优解必存在.\\
反设存在至少两个最优解,记为$\bar{x},\bar{y}$.则$\nabla f(\bar{x})=\nabla f(\bar{y})=0$, $f(\bar{x})=f(\bar{y})=\bar{f}$.代入(\ref{eq13:17})式中可得$\bar{x}=\bar{y}$矛盾.因而最优解必唯一.

\begin{theorem}\label{thm13:5}
    设$\{x^k\}$由常数步长梯度法应用于最优化问题(\ref{eq13:15})生成.也即: $x^{k+1}=x^k-\tau\cdot\nabla f(x^k)$, $\tau\in (0,\frac{2}{L}]$.记$\gamma(\tau)=\max\{(1-L\tau)^2, (1-\mu \tau)^2\}$.则有
    \begin{equation}\label{eq13:18}
        \| x^{k+1}-x^*\|^2\leq \gamma(\tau)\cdot\| x^k-x^*\|^2.
    \end{equation}
    \begin{equation}\label{eq13:19}
        \|\nabla f(x^{k+1})\|^2\leq \gamma(\tau)\| \nabla f(x^{k+1})\|^2.
    \end{equation}
    \begin{equation}\label{eq13:20}
        f(x^{k+1})-\bar{f}\leq \gamma(\tau)(f(x^{k+1})-\bar{f}).
    \end{equation}
\end{theorem}

\begin{proof}
    \begin{equation*}
        \begin{aligned}
            \| x^{k+1}-x^*\|^2 & =\| x^k-x^*-\tau(\nabla f(x^k)-\nabla f(x^*))\|^2                                                                                               \\
                               & =\| x^k-x^*\|^2-2\tau\langle x^k-x^*,\nabla f(x^*)-\nabla f(x^*)\rangle+\tau^2\|\nabla f(x^k)-\nabla f(x^*)\|^2                                 \\
                               & \mathop{\leq}\limits^{\text{(\ref{eq13:16})}} \| x^k-x^*\|^2-2\tau(\frac{L\mu}{L+\mu}\| x^k-x^*\|^2+\frac{1}{L+\mu}\| f(x^k)-\nabla f(x^*)\|^2) \\
                               & +\tau^2\|\nabla f(x^k)-\nabla f(x^*)\|^2                                                                                                        \\
                               & =(1-\frac{2\tau L\mu}{L+\mu})\| x^k-x^*\|^2+\tau(\tau-\frac{2}{L+\mu})\|\nabla f(x^k)-\nabla f(x^*)\|^2.
        \end{aligned}
    \end{equation*}
    由$L$-光滑性,
    $$\|\nabla f(x^k)-\nabla f(x^*)\|\leq L\| x^k-x^*\|.$$
    由$\mu$-强凸性,
    $$\|\nabla f(x^k)-\nabla f(x^*)\|\geq\mu\| x^k-x^*\|.$$
    因此对任意的参数$\beta$(可正、可负)均有
    $$\beta\|\nabla f(x^k)-\nabla f(x^*)\|^2\leq \max\{\beta L^2,\beta \mu^2\}\| x^k-x^*\|^2.$$
    据此,
    \begin{equation*}
        \begin{aligned}
            \| x^{k+1}-x^*\|^2 & \leq(1-\frac{2\tau L\mu}{L+\mu})\| x^k-x^*\|^2+\tau\max\left\{L^2(\tau-\frac{2}{L+\mu}),\mu^2(\tau-\frac{2}{L+\mu})\right\}\| x^k-x^*\|^2                   \\
                               & =\max\left\{(1-\frac{2\tau L\mu}{L+\mu})+\tau L^2(\tau-\frac{2}{L+\mu}), (1-\frac{2\tau L\mu}{L+\mu})+\tau\mu^2(\tau-\frac{2}{L+\mu})\right\}\| x^k-x^*\|^2 \\
                               & =\max\left\{(1-\tau L)^2, (1-\tau\mu)^2\right\}\| x^k-x^*\|^2                                                                                               \\
                               & =\gamma(\tau)\| x^k-x^*\|.
        \end{aligned}
    \end{equation*}
    从而(\ref{eq13:18})式得证.
    \begin{equation*}
        \begin{aligned}
            \| \nabla f(x^{k+1})\|^2 & =\|\nabla f(x^{k+1})-\nabla f(x^k)+\nabla f(x^k)\|^2                                                                                                                                       \\
                                     & =\|\nabla f(x^{k+1})\|^2+2\langle\nabla f(x^{k+1})-\nabla f(x^k),\nabla f(x^k)\rangle+\| \nabla f(x^{k+1})-\nabla f(x^k)\|^2                                                               \\
                                     & =\frac{1}{\tau^2}\| x^{k+1}-x^k\|^2-\frac{2}{\tau}\langle x^{k+1}-x^k,\nabla f(x^{k+1})-\nabla f(x^k)\rangle+\|\nabla f(x^{k+1})-\nabla f(x^k)\|^2                                         \\
                                     & \mathop{\leq}\limits^{\text{(\ref{eq13:16})}} \frac{1}{\tau^2}\| x^{k+1}-x^k\|^2-\frac{2}{\tau}(\frac{\mu L}{\mu+L}\| x^{k+1}-x^k\|+\frac{1}{\mu+L}\| \nabla f(x^{k+1})-\nabla f(x^k)\|^2) \\
                                     & +\| \nabla f(x^{k+1})-f(x^k)\|^2                                                                                                                                                           \\
                                     & =\frac{1}{\tau^2}\left[(1-\frac{2\tau\mu L}{\mu+L})\| x^{k+1}-x^k\|^2+\tau(\tau-\frac{2}{\mu+L})\|\nabla f(x^{k+1})-\nabla f(x^k)\|^2\right]                                               \\
                                     & \vdots                                                                                                                                                                                     \\
                                     & \leq \frac{1}{\tau^2}\gamma(\tau)\| x^{k+1}-x^k\|^2                                                                                                                                        \\
                                     & =\gamma(\tau)\|\nabla f(x^k)\|^2.
        \end{aligned}
    \end{equation*}
    其中省略的过程类似于(\ref{eq13:18})式的推导.
    \par 函数值的线性收敛(\ref{eq13:20})的证明要稍复杂些.为简便起见,记
    $$f^k=f(x^k), g^k=\nabla f(x^k), \bar{f}=f(x^*).$$
    则将$(x,y)=(x^{k+1},x^k)$, $(x^k,x^*)$, $(x^{k+1},x^*)$分别代入(\ref{eq13:17})式中可依次得:
    \begin{align}
        f^k     & \geq f^{k+1}+\langle g^{k+1},x^k-x^{k+1}\rangle+\frac{1}{2L}\| g^k-g^{k+1}\|^2+\frac{\mu L}{2(L-\mu)}\| x^k-x^{k+1}-\frac{1}{L}(g^k-g^{k+1})\|^2.
        \label{eq13:21}                                                                                                                                             \\
        \bar{f} & \geq f^k+\langle g^k,x^*-x^k\rangle+\frac{1}{2L}\| g^k\|^2+\frac{\mu L}{2(L-\mu)}\| x^k-x^*-\frac{1}{L}g^k\|^2.
        \label{eq13:22}                                                                                                                                             \\
        \bar{f} & \geq f^{k+1}+\langle g^{k+1},x^*-x^{k+1}\rangle+\frac{1}{2L}\| g^{k+1}\|^2+\frac{\mu L}{2(L-\mu)}\| x^{k+1}-x^*-\frac{1}{L}g^{k+1}\|^2.
        \label{eq13:23}
    \end{align}
    令$\lambda=\sqrt{\gamma(\tau)}$.则由$\lambda\cdot(\text{\ref{eq13:21}})+\lambda(1-\lambda)\cdot(\text{\ref{eq13:22}})+(1-\lambda)\cdot(\text{\ref{eq13:23}})$可得
    $$\lambda^2(f^k-\bar{f})\geq f^{k+1}-\bar{f}+\mathcal{R}.$$
    其中:
    \begin{equation*}
        \begin{aligned}
            \mathcal{R} & =\lambda\langle g^{k+1},x^k-x^{k+1}\rangle+\frac{\lambda}{2L}\| g^k-g^{k+1}\|^2+\frac{\lambda\mu L}{2(L-\mu)}\| x^k-x^{k+1}\frac{1}{L}(g^k-g^{k+1})\|^2     \\
                        & +\lambda(1-\lambda)\langle g^k,x^*-x^k\rangle+\frac{\lambda(1-\lambda)}{2L}\| g^k\|^2+\frac{\lambda(1-\lambda)\mu L}{2(L-\mu)}\| x^k-x^*-\frac{1}{L}g^k\|^2 \\
                        & +(1-\lambda)\langle g^{k+1},x^*-x^{k+1}\rangle+\frac{1-\lambda}{2L}\| g^{k+1}\|^2+\frac{(1-\lambda)\mu L}{2(L-\mu)}\| x^{k+1}-x^*-\frac{1}{L}g^{k+1}\|^2.
        \end{aligned}
    \end{equation*}
    只需证明$\mathcal{R}\geq 0$即可.(需要精细的配方技巧)\\
    当$0\leq \tau\leq\frac{2}{L+\mu}$时, $\lambda=\sqrt{\gamma(\tau)}=1-\tau \mu$.此时
    \begin{equation*}
        \begin{aligned}
            \mathcal{R} & =\frac{(2-\tau\mu)\beta}{2\alpha}\|(1-\tau\mu)g^k-g^{k+1}\|^2                                                 \\
                        & +\frac{\tau L\mu^2(2-\tau\mu)}{2(L-\mu)}\|(x^k-x^*)-\frac{g^k+g^{k+1}}{\mu(2-\tau\mu)}\|^2                    \\
                        & +\frac{2\tau\mu}{2L(L-\mu)(2-\tau\mu)}\|\frac{(\tau\mu-1)L\beta}{\alpha}g^k+\frac{L\beta}{\alpha}g^{k+1}\|^2.
        \end{aligned}
    \end{equation*}
    其中$\alpha =-(\tau^2 L^2\mu+2L(-2+\tau\mu)+\mu(-2+\tau\mu)^2)$, $\beta=2-\tau(L+\mu)$.\\
    由于当$0\leq \tau\leq\frac{2}{L+\mu}$且$0\leq \mu<L$时, $\alpha>0$.可知$\mathcal{R}>0$.\\
    当$\frac{2}{L+\mu}\leq \tau\leq\frac{2}{L}$时, $\lambda=L\mu-1$.此时
    \begin{equation*}
        \begin{aligned}
            \mathcal{R} & =\frac{(2-\tau L)\beta}{2\tau\alpha}\|(1-\tau L)g^k-g^{k+1}\|^2                                                         \\
                        & +\frac{\tau L^2\mu(2-\tau L)}{2(L-\mu)}\|(x^k-x^*)+\frac{1-\tau L-\tau\mu}{\tau L \mu}g^k-\frac{g^{k+1}}{\tau L\mu}\|^2 \\
                        & +\frac{\tau\alpha}{2\mu(L-\mu)}\|\frac{(\tau L-1)L\beta}{\tau\alpha}g^k+\frac{L\beta}{\tau\alpha}g^{k+1}\|^2.
        \end{aligned}
    \end{equation*}
    其中$\alpha=(-2L^2-2\mu^2+2L\mu+\tau L^3+\tau L\mu^2)$, $\beta=\tau(L+\mu)-2$.类似可知$\mathcal{R}\geq 0$.证毕.
\end{proof}
~\par
从上式可看出,最佳收敛率$\gamma^*=\gamma(\frac{2}{L+\mu})=\left(\frac{L-\mu}{L+\mu}\right)^2$.值得指出的是,定理中推导的收敛率因子是“最优”的,没法进一步改进.考虑二次函数:
$$f(x)=\frac{\mu}{2}\| x\|^2.$$
其中$0<\mu<\infty$.$f(x)$为$L$-光滑且$\mu$-强凸的函数且$L=\mu$.最优解与最优值为$x^*=0$, $\bar{f}=0$.应用常数步长的梯度法得到
$$x^{k+1}=(1-\tau\mu)x^k.$$
\begin{figure}[!htb]\label{fg13:1}
    \centering
    \includegraphics[width=0.8\textwidth]{image/fg13.png}
    \caption*{收敛因子作为步长$\tau$的函数}
\end{figure}
因此,
\begin{equation*}
    \begin{aligned}
        \| x^{k+1}\|^2          & =(1-\tau\mu)^2\| x^k\|^2.                                                              \\
        \|\nabla f(x^{k+1})\|^2 & =\mu^2\| x^{k+1}\|^2 =\mu^2(1-\tau\mu)^2\| x^k\|^2=(1-\tau\mu)^2\|\nabla f(x^k)\|^2.   \\
        f(x^{k+1})              & =\frac{\mu}{2}\| x^{k+1}\|^2=\frac{\mu}{2}(1-\tau\mu)^2\| x^k\|^2=(1-\tau\mu)^2f(x^k).
    \end{aligned}
\end{equation*}
注意到, $(1-\tau\mu)^2=\gamma(\tau)$.可知(\ref{eq13:18})-(\ref{eq13:20})的收敛性不等式均取等号.

\section{线性收敛与误差界}\label{sec13:3}
首先,给出常数步长梯度法线性收敛的充要性定理.
\begin{lemma}\label{lem13:2}
    设$f:\mathbb{R}^n\rightarrow \mathbb{R}$连续可微且$X^*=\mathop{\text{Argmin}}\{f(x)\}\neq \emptyset$.令$\tau >0$且$\gamma\in(0,1)$.
    \begin{itemize}
        \item[(i)] 假设$f$为$L$-光滑的凸函数,步长$\tau\in (0,\frac{1-\sqrt{\gamma}}{L}]$.若从任意初始点$x^0$出发,梯度法生成的序列线性地收敛到解集$X^*$,也即
            \begin{equation}\label{eq13:24}
                d^2(x^{k+1},X^*)\leq \gamma\cdot d^2(x^k,X^*).
            \end{equation}
            则必有
            \begin{equation}\label{eq13:25}
                \mathop{\text{inf}}\limits_{u\in \mathcal{P}(x^k)}\langle \nabla f(x^k),x^k-u\rangle\geq \frac{1-\gamma}{2\tau}d^2(x^k,X^*)+\frac{\tau}{2}\| \nabla f(x^k)\|^2,\forall k\geq 0.
            \end{equation}
        \item[(ii)] 反之,若条件(\ref{eq13:25})成立,则必有线性收敛(\ref{eq13:24}).其中$\mathcal{P} (x^k)=\mathop{\text{Argmin}}\limits_{z\in X^*}\| z-x^*\|$.
    \end{itemize}
\end{lemma}

\begin{proof}
    \begin{itemize}
        \item[(i)] 任取$u^{k+1}\in \mathcal{P}(x^{k+1})$.则
            \begin{equation*}
                \begin{aligned}
                    d(x^k,X^*) & \leq \| x^k-u^{k+1}\| \leq \| x^{k+1}-u^{k+1}\| +\| x^{k+1}-x^k\|=d(x^{k+1},X^*)+\tau\cdot\|\nabla f(x^k)\|.
                \end{aligned}
            \end{equation*}
            由(\ref{eq13:24})式,
            $$d(x^{k+1},X^*)\leq \sqrt{\gamma}\cdot d(x^k,X^*).$$
            于是,结合以上两式可得
            $$(1-\sqrt{\gamma})d(x^k,X^*)\leq \tau\cdot\|\nabla f(x^k)\|^2.$$
            由于$f$为$L$-光滑且凸的.可知
            $$\langle \nabla f(x^k),x^k-u\rangle\geq \frac{1}{L}\| \nabla f(x^k)\|^2,\forall u\in \mathcal{P}(x^k).$$
            因此,对任意的$\alpha,\beta >0$满足$\alpha+\beta\leq 1$.均有
            $$\langle \nabla f(x^k),x^k-u\rangle\geq \frac{\alpha}{L}\|\nabla f(x^k)\|^2+\frac{\beta(1-\sqrt{\gamma})^2}{L\tau^2}d^2(x^k,X^*).$$
            在上式中取
            $$\alpha=\frac{L}{2}\tau,\beta =\frac{L\tau(1-\gamma)}{2(1-\sqrt{\gamma})^2}.$$
            即可推出(\ref{eq13:25})式.注意
            $$\alpha+\beta=\frac{\tau L}{1-\sqrt{\gamma}}\leq 1.$$
            由步长的假设保证.
        \item[(ii)] \begin{equation*}
                \begin{aligned}
                    d^2(x^{k+1},X^*) & =\| x^{k+1}-\bar{x}^{k+1}\|^2                                                             \\
                                     & \leq \| x^{k+1}-\bar{x}^k\|^2                                                             \\
                                     & =\| x^k-\tau\cdot\nabla f(x^k)-\bar{x}^k\|^2                                              \\
                                     & =d^2(x^k,X^*)-2\tau \langle \nabla f(x^k),x^k-\bar{x}^k\rangle+\tau^2\|\nabla f(x^k)\|^2.
                \end{aligned}
            \end{equation*}
            其中$\bar{x}^k\in \mathcal{P}(x^k)$.再结合(\ref{eq13:24})式
            $$\langle \nabla f(x^k),x^k-\bar{x}^k\rangle\geq \frac{1-\gamma}{2\tau}d^2(x^k,X^*)+\frac{\tau}{2}\|\nabla f(x^k)\|^2.$$
            即可推出(\ref{eq13:24})式成立.
    \end{itemize}
\end{proof}
~\par
据\cref{lem13:2},我们证明误差界条件是梯度法线性收敛的充要条件.由误差界条件之间的等价性,仅需说明(\ref{RSC})的充要性.

\chapter{加速梯度法}\label{chap:14}
本章介绍两类经典的加速梯度法: Polyak的重球方法和Nesterov的加速方法.

\section{Polyak重球法}\label{sec14:1}
\subsection{定义}
Polyak重球法定义为:
\begin{equation*}
    \begin{aligned}
        p^k     & =-\nabla f(x^k)+\beta_k\cdot p^{k-1}, \\
        x^{k+1} & =x^k+\alpha_k\cdot p^k.
    \end{aligned}
\end{equation*}
其中初始值$x^0$, $p^0$给定,而非负序列$\{\alpha_k\}$与$\{\beta_k\}$则需要根据具体问题而设定.特别地,当$\beta_k\equiv 0$时, Polyak重球法退化为
$$x^{k+1}=x^k-\alpha_k\cdot \nabla f(x^k).$$
也即标准的梯度算法;而当$p^0=0$时,重球法可等价地写成
\begin{equation}\label{eq14:1}
    x^{k+1}=x^k-\alpha_k\cdot\nabla f(x^k)+\beta_k(x^k-x^{k-1}).
\end{equation}
其中“尾项”$x^k-x^{k-1}$称为冲量项(momentum).\\
下图展示了该项对梯度法的修正.
\begin{figure}[!htb]\label{fg14:1}
    \centering
    \includegraphics[width=0.5\textwidth]{image/fg14.png}
    \caption*{梯度法}
\end{figure}
\begin{figure}[!htb]\label{fg14:2}
    \centering
    \includegraphics[width=0.5\textwidth]{image/fg15.png}
    \caption*{重球法}
\end{figure}

\subsection{理论结果}
通过极小化二次函数的例子,说明Polyak重球法对收敛率的改进
\begin{equation}\label{eq14:2}
    \min f(x)=\frac{1}{2}x^TAx-b^Tx+c.
\end{equation}
其中$A\in\mathbb{R}^{n\times n}$为正定矩阵, $b\in\mathbb{R}^n$为向量, $c\in\mathbb{R}$为常数.假定
$$\mu I\preceq A\preceq L\cdot I.$$
则$f$为$L$-光滑且$\mu$-强凸的,其唯一解记为$x^*=A^{-1}b$.\\
设$\{x^k\}$为常数步长梯度法生成的序列.则由第\ref{chap:13}章的\cref{thm13:5}知
$$\| x^{k+1}-x^*\|^2\leq \max\left\{(1-\tau L)^2,(1-\tau\mu)^2\right\}\| x^k-x^*\|^2.$$
其中$\tau>0$为步长.当$\tau\equiv \frac{2}{L+\mu}$时,最佳收敛率结果为:
$$\| x^{k+1}-x^*\|\leq \frac{L-\mu}{L+\mu}\| x^k-x^*\|.$$
\par 现设$\{x^k\}$为常数参数Polyak重球法生成的序列i.e. (\ref{eq14:1})中的$\alpha_k\equiv \alpha$, $\beta_k\equiv \beta$.由于迭代格式涉及到三个迭代点$x^{k-1}$, $x^k$, $x^{k+1}$,我们研究$\| x^{k+1}-x^*\|^2+\| x^k-x^*\|^2$的变化/演化.\\
具体地,
\begin{equation*}
    \begin{aligned}
        \left[\begin{array}{cc}
                      x^{k+1}-x^* \\x^k-x^*
                  \end{array}\right] & =\left[\begin{array}{cc}
                                                  x^k-\alpha\nabla f(x^k)+\beta(x^k-x^{k-1})-x^* \\x^k-x^*
                                              \end{array}\right] \\
                                & =\left[\begin{array}{cc}
                                                 x^k+\beta(x^k-x^{k-1})-\alpha (Ax^k-b)-x^* \\x^k-x^*
                                             \end{array}\right]      \\
                                & =\left[\begin{array}{cc}
                                                 (1+\beta)I-\alpha A & -\beta I \\
                                                 I                   & 0
                                             \end{array}\right]\left[\begin{array}{cc}
                                                                         x^k-x^* \\x^{k-1}-x^*
                                                                     \end{array}\right].
    \end{aligned}
\end{equation*}
其中应用了$b=Ax^*$.\\
令$$T=\left[\begin{array}{cc}
            (1+\beta)I-\alpha A & -\beta I \\
            I                   & 0
        \end{array}\right].$$
则
$$\left\| \left[\begin{array}{cc}
            x^{k+1}-x^* \\x^k-x^*
        \end{array}\right]\right\|\leq \| T\|\cdot \left\|\left[\begin{array}{cc}
            x^k-x^* \\x^{k-1}-x^*
        \end{array}\right]\right\|.$$
从而可将迭代算法收敛率的研究转化为对矩阵$T$的谱估计.通过调节参数$\alpha$与$\beta$,可得到最佳的收敛率.

\begin{theorem}{Polyak重球法应用于二次函数的收敛}\label{thm14:1}
    设
    $$\alpha\equiv \frac{4}{(\sqrt{L}+\sqrt{\mu})^2},\beta\equiv \max\left\{(1-\sqrt{\alpha L})^2,(1-\sqrt{\alpha \mu})^2\right\}.$$
    则有
    $$\left\|\left[\begin{array}{cc}
                x^{k+1}-x^* \\x^k-x^*
            \end{array}\right]\right\|\leq \left(\frac{\sqrt{L}-\sqrt{\mu}}{\sqrt{L}+\sqrt{\mu}}\right)\left\|\left[\begin{array}{cc}
                x^k-x^* \\x^{k-1}-x^*
            \end{array}\right]\right\|.$$
\end{theorem}

\begin{proof}
    设$T$的特征值分解为
    $$T=U\varLambda U^T.$$
    记$P$为$2n\times 2n$的矩阵(排序).其元素定义为
    $$P_{i,j}=\left\{\begin{array}{ccc}
            1, & i\text{为奇数且}j=i,             \\
            1, & i\text{为偶数且}j=n+\frac{i}{2}, \\
            0, & \text{others}.
        \end{array}\right.$$
    则
    \begin{equation*}
        \begin{aligned}
            P\left[\begin{array}{cc}
                           U & 0 \\0&U
                       \end{array}\right]\left[\begin{array}{cc}
                                                   (1+\beta)I-\alpha A & -\beta I \\I& 0
                                               \end{array}\right]\left[\begin{array}{cc}
                                                                           U & 0 \\0&U
                                                                       \end{array}\right]^TP^T \\
            =P\left[\begin{array}{cc}
                            (1+\beta)I & -\alpha \varLambda \\I&0
                        \end{array}\right]P^T=\left[\begin{array}{cccc}
                                                        T_1    & 0      & \cdots & 0      \\
                                                        0      & T_2    & \cdots & 0      \\
                                                        \vdots & \vdots & \ddots & \vdots \\
                                                        0      & 0      & \cdots & T_n
                                                    \end{array}\right].
        \end{aligned}
    \end{equation*}
    其中
    $$T_i:=\left[\begin{array}{cc}
                1+\beta-\alpha \lambda_i & -\beta \\
                1                        & 0
            \end{array}\right].$$
    从而$T$与上述分块矩阵相似. $T$的特征值可通过计算$T_i$的特征值而得到.对固定的$i$, $T_i$的特征方程为
    $$x^2-(1+\beta-\alpha\lambda_i)x+\beta=0.$$
    设其根分别为$x_1$, $x_2$.则由韦达定理
    $$x_1\cdot x_2=\beta.$$
    当且仅当$|x_1|=|x_2|=\sqrt{\beta}$时, $\max\{|x_1|,|x_2|\}$达到最小.为此,设$\alpha$, $\beta$满足
    \begin{equation}\label{eq14:3}
        (1+\beta-\alpha\lambda_i)^2\leq 4\beta.
    \end{equation}
    此时, $x_1$, $x_2$必为虚根或相等.从而保证其幅值相等.不难验证,当
    $$\beta\in\left[(1-\sqrt{\alpha \lambda_i})^2,(1+\sqrt{\alpha\lambda_i})^2\right]$$
    时(\ref{eq14:3})式成立.因此,可取
    $$\beta=\max\left\{(1-\sqrt{\alpha L})^2,(1-\sqrt{\alpha \mu})^2\right\}.$$
    特别地,当$\alpha=\frac{4}{(\sqrt{L}+\sqrt{\mu})^2}$时,
    $$\beta=\left(\frac{\sqrt{L}-\sqrt{\mu}}{\sqrt{L}+\sqrt{\mu}}\right)^2.$$
    因而, $\| T\|\leq \max\limits_i\{\| T_i\|\}\leq \sqrt{\beta}=\frac{\sqrt{L}-\sqrt{\mu}}{\sqrt{L}+\sqrt{\mu}}$.证毕.
\end{proof}

\begin{corollary}\label{cor14:1}
    Polyak重球法中的函数值按以下方式线性收敛:
    $$\frac{f(x^k)+f(x^{k+1})}{2}-f(x^*)\leq \frac{L}{4}\left(\frac{\sqrt{L}-\sqrt{\mu}}{\sqrt{L}+\sqrt{\mu}}\right)^{2k}\left\|\left[\begin{array}{cc}
                x^0-x^* \\x^{-1}-x^*
            \end{array}\right]\right\|^2.$$
\end{corollary}

\begin{proof}
    设$A=Q^TQ$.注意到
    \begin{equation*}
        \begin{aligned}
            f(x^k) & =\frac{1}{2}(x^k)^TAx^k-b^TAx^k+c      \\
                   & =\frac{1}{2}(x^k)^TAx^k-(x^*)^TAx^k+c. \\
            f(x^*) & =\frac{1}{2}(x^*)Ax^*-(x^*)^TAx^*+c.
        \end{aligned}
    \end{equation*}
    可知,
    \begin{equation*}
        \begin{aligned}
            f(x^k)-f(x^*) & =\frac{1}{2}\left((x^k)^TAx^k-2(x^*)^TAx^k+(x^*)^TAx^*\right) \\
                          & =\frac{1}{2}\| Qx^k-Qx^*\|^2                                  \\
                          & \leq \frac{1}{2}\| Q\|^2\cdot \| x^k-x^*\|^2                  \\
                          & =\frac{1}{2}\| A\|\cdot\| x^k-x^*\|^2                         \\
                          & =\frac{L}{2}\| x^k-x^*\|^2.
        \end{aligned}
    \end{equation*}
    再结合\cref{thm13:5}可推出结论.证毕.
\end{proof}
若令$\kappa =\frac{L}{\mu}$表示$A$的条件数.则梯度法的收敛率(最佳)为
$$\frac{L-\mu}{L+\mu}=\frac{\kappa -1}{\kappa +1}.$$
而Polyak重球法的收敛率改进为
$$\frac{\sqrt{L}-\sqrt{\mu}}{\sqrt{L}+\sqrt{\mu}}=\frac{\sqrt{\kappa }-1}{\sqrt{\kappa }+1}.$$
尽管如此, Polyak重球法的局限在于参数$\alpha$, $\beta$均依赖于$L$, $\mu$且缺乏一般优化问题的理论结果. Nesterov加速克服这些困难.

\section{Nesterov加速}\label{sec14:2}
设$f$为$L$-光滑的凸函数并假设
$$X^*:=\mathop{\text{Argmin}}\limits_{x\in\mathbb{R}^n}f(x)\neq \emptyset.$$
Nesterov在其1983年的论文中提出了一类迭代算法来快速极小化目标函数$f(x)$.具体程序如下:
\begin{itemize}
    \item[0$\rangle$] 选取$y^0\in\mathbb{R}^n$,并初始化
        $$k=0,a_0=1,x^{-1}=y^0,\alpha_{-1}=\frac{\| y^0-z\|}{\| \nabla f(y^0)-\nabla f(z)\|}.$$
        其中$z$为$\mathbb{R}^n$中满足$z\neq y^0$且$\nabla f(y^0)\neq \nabla f(z)$的任意一点.
    \item[1$\rangle$] 计算第$k$步迭代:
        \begin{itemize}
            \item[(i)] 计算最小的指标$i\geq 0$使得
                \begin{equation}\label{eq14:4}
                    f(y^k)-f(y^k-\frac{\alpha_{k-1}}{2^i}\nabla f(y^k))\geq \frac{\alpha_{k-1}}{2^{i+1}}\| \nabla f(y^k)\|^2.
                \end{equation}
            \item[(ii)] 计算\begin{equation*}
                    \begin{aligned}
                        \alpha_k & =\frac{1}{2^i}\alpha_{k-1}, x^k=y^k-\alpha_k\cdot\nabla f(y^k). \\
                        a_{k+1}  & =(1+\sqrt{4a_k^2+1})/2.                                         \\
                        y^{k+1}  & =x^k+(a_k-1)(x^k-x^{k-1})/a_{k+1}.
                    \end{aligned}
                \end{equation*}
        \end{itemize}
\end{itemize}
\begin{remark}
    \begin{itemize}
        \item[1$\rangle$] 由于$f$为$L$-光滑的,也即
            $$f(y)\leq f(x)+\langle\nabla f(x),y-x\rangle+\frac{L}{2}\| y-x\|^2.$$
            取$x=y^k$, $y=y^k-\tau\cdot\nabla f(y^k)$.则有
            \begin{equation*}
                \begin{aligned}
                    f(y^k)-f(y^k-\tau\cdot\nabla f(y^k)) & \geq \tau(1-\frac{L\tau}{2})\|\nabla f(y^k)\|^2                        \\
                                                         & \geq \frac{\tau}{2}\|\nabla f(y^k)\|^2,\quad (0<\tau\leq \frac{1}{L}).
                \end{aligned}
            \end{equation*}
            据此,步骤(i)中最小的指标$i$必存在,且由$\frac{\alpha_{k-1}}{2^i}\leq \frac{1}{L}$知
            $$i\geq \log_2L\cdot\alpha_{k-1}.$$
        \item[2$\rangle$] 该计算程序不依赖于参数$L$.每步迭代的计算代价大致等同于每步梯度法的计算.
    \end{itemize}
\end{remark}

\begin{theorem}\label{thm14:2}
    设$\{y^k\}$与$\{x^k\}$为Nesterov方法生成的序列.则有
    $$f(x^k)-\bar{f}\leq \frac{c}{(k+2)^2}.$$
    其中$c=8\| x^0-x^*\|^2$, $\bar{f}=f(x^*)$, $x^*\in X^*$.
\end{theorem}

\begin{proof}
    首先,由指标$i$的最小性知
    $$\min\left\{\frac{\alpha_{k-1}}{2^{i-1}},\frac{\alpha_{k-1}}{2^0}\right\}\geq \frac{1}{L}.$$
    从而$$\frac{\alpha_{k-1}}{2^{i-1}}\geq \frac{1}{L}.$$
    于是,
    $$\alpha_k=2^i\cdot\alpha_{k-1}\geq\frac{1}{2L},\forall k\geq 0.$$
    令$p^k=(a_k-1)(x^{k-1}-x^k)$.则
    $$p^{k+1}-x^{k+1}=p^k-x^k+a_{k+1}\cdot\alpha_{k+1}\cdot\nabla f(y^{k+1}).$$
    因此,
    \begin{equation}\label{eq14:5}
        \begin{aligned}
            \| p^{k+1}-x^{k+1}+x^*\|^2 & =\| p^k-x^k+x^*\|^2+2(a_{k+1}-1)\alpha_{k+1}\langle\nabla f(y^{k+1}),p^k\rangle                                  \\
                                       & +2a_{k+1}\alpha_{k+1}\langle\nabla f(y^{k+1}),x^*-y^{k+1}\rangle+a_{k+1}^2\alpha_{k+1}^2\|\nabla f(y^{k+1})\|^2.
        \end{aligned}
    \end{equation}
    上式中应用了公式
    \begin{equation}\label{eq14:6}
        \begin{aligned}
            y^{k+1} & =x^k+(a_k-1)(x^k-x^{k-1})/a_{k+1} \\
                    & =x^k-p^k/a_{k+1}.
        \end{aligned}
    \end{equation}
    以及$p^k-x^k+x^*=(1-\frac{1}{a_{k+1}})p^k+x^*-y^{k+1}$.\\
    下面运用$L$-光滑性与凸性将(\ref{eq14:5})式中的内积项与函数值建立起联系.\\
    由(\ref{eq14:4})式可知
    \begin{equation}\label{eq14:7}
        f(y^{k+1})-f(x^{k+1})\geq \frac{1}{2}\alpha_{k+1}\|\nabla f(y^{k+1})\|^2.
    \end{equation}
    由凸性条件:
    $$f(x^*)\geq f(y^{k+1})+\langle\nabla f(y^{k+1}),x^*-y^{k+1}\rangle.$$
    结合上面两式可得
    \begin{equation}\label{eq14:8}
        \langle\nabla f(y^{k+1}),y^{k+1}-x^*\rangle\geq f(x^{k+1})-f(x^*)+\frac{1}{2}\alpha_{k+1}\|\nabla f(y^{k+1})\|^2.
    \end{equation}
    由凸性条件与(\ref{eq14:6})式可得
    \begin{equation*}
        \begin{aligned}
            f(y^{k+1}) & \leq f(x^k)-\langle \nabla f(y^{k+1}),x^k-y^{k+1}\rangle \\
                       & =f(x^k)-a^{-1}_{k+1}\langle\nabla f(y^{k+1}),p^k\rangle.
        \end{aligned}
    \end{equation*}
    将上式代入(\ref{eq14:7})式中可得
    \begin{equation}\label{eq14:9}
        \frac{1}{2}\alpha_{k+1}\|\nabla f(y^{k+1})\|^2\leq f(y^{k+1})-f(x^{k+1})\leq f(x^k)-f(x^{k+1})-a^{-1}_{k+1}\langle\nabla f(y^{k+1}),p^k\rangle.
    \end{equation}
    将(\ref{eq14:8})与(\ref{eq14:9})代入(\ref{eq14:5})可推导如下
    \begin{equation*}
        \begin{aligned}
            \| p^{k+1}-x^{k+1} & +x^*\|^2-\| p^k-x^k+x^*\|^2                                                                                                                     \\
                               & \leq 2(a_{k+1}-1)\alpha_{k+1}a_{k+1}\left(f(x^k)-f(x^{k+1})\right)-a_{k+1}(a_{k+1}-1)\alpha_{k+1}^2\|\nabla f(y^{k+1})\|^2                      \\
                               & -2a_{k+1}\alpha_{k+1}\left(f(x^{k+1})-f(x^*)\right)-a_{k+1}\alpha_{k+1}^2\|\nabla f(y^{k+1})\|^2+a_{k+1}^2\alpha_{k+1}^2\|\nabla f(y^{k+1})\|^2 \\
                               & =2\alpha_{k+1}(a_{k+1}-1)a_{k+1}\left(f(x^k)-f(x^*)\right)-2\alpha_{k+1}a_{k+1}^2\left(f(x^{k+1})-f(x^*)\right)                                 \\
                               & =2\alpha_ka^2_k\left(f(x^k)-f(x^*)\right)-2\alpha_{k+1}a_{k+1}^2\left(f(x^{k+1})-f(x^*)\right).
        \end{aligned}
    \end{equation*}
    其中最后一式应用了$a_k^2=(a_{k+1}-1)a_{k+1}$以及$\alpha_{k+1}\leq \alpha_k$.因此,注意到$a_0=1$, $p^0=0$.推导如下
    \begin{equation*}
        \begin{aligned}
            2 & \alpha_{k+1}a_{k+1}^2\left(f(x^{k+1})-f(x^*)\right)  +\| p^{k+1}-x^{k+1}+x^*\|^2 \\
              & \leq 2\alpha_ka_k^2\left(f(x^k)-f(x^*)\right)+\| p^k-x^k+x^*\|^2                 \\
              & \cdots                                                                           \\
              & \leq 2\alpha_0a^2_0\left(f(x^0)-f(x^*)\right)+\| p^0-x^0+x^*\|^2                 \\
              & \leq 2\alpha_0\left(f(x^0)-f(x^*)\right)+\| x^0-x^*\|^2.
        \end{aligned}
    \end{equation*}
    由$f$的$L$-光滑性以及$\nabla f(x^*)=0$.可知
    $$f(x^0)-f(x^*)\leq \frac{L}{2}\| x^0-x^*\|^2.$$
    至此可得
    $$f(x^{k+1})-f(x^*)\leq \frac{(\alpha_0\cdot L+1)\| x^0-x^*\|^2}{2\alpha_{k+1}\cdot a_{k+1}^2}.$$
    最后,由$\alpha_0\leq \frac{1}{L}$, $\alpha_k\geq \frac{1}{2L}$以及
    $$a_{k+1}\geq \frac{1}{2}+a_k\geq 1+\frac{1}{2}(k+1).$$
    因此,
    $$f(x^{k+1})-\bar{f}\leq \frac{8L\| x^0-x^*\|^2}{(k+3)^2}.$$
    即证.
\end{proof}
~\par
\begin{itemize}
    \item 若光滑常数$L$已知,则Nesterov加速算法可简化为
          \begin{equation}\label{N1}
              \left\{\begin{aligned}
                  x^k     & = y^k-\frac{1}{L}\nabla f(y^k),            \\
                  a_{k+1} & =\frac{a+\sqrt{1+4a^2_k}}{2},              \\
                  y^{k+1} & =x^k+\frac{(a_k-1)(x^k-x^{k+1})}{a_{k+1}}.
              \end{aligned}\right.\tag{N$_1$}
          \end{equation}
          对应的函数值收敛为:
          $$f(x^k)-\bar{f}\leq \frac{4L\| x^0-x^*\|^2}{(k+2)^2}.$$
    \item 若令$\mathcal{C}_k=2\alpha_k a_k^2(f(x^k)-f(x^*))+\| p^k-x^k+x^*\|^2$.则\cref{thm10:2}的证明关键是验证$\{\mathcal{C}_k\}$的单调性:
          $$\mathcal{C}_{k+1}\leq \mathcal{C}_k.$$
          在最近的文献中$\mathcal{C}_k$被理解为总能量,也即势能$f(x^k)-f(x^*)$与动能$\| p^k-x^k+x^*\|^2$的总和.通过设计单调下降的能量函数证明算法收敛的方法被称为势能函数方法(potential function-based method).
\end{itemize}

下面,我们介绍一个基于势能函数法的加速梯度算法.该方法的显著特点是能保证梯度的快速下降.首先,引入新的势能函数
$$\mathcal{C}_k=\sum\limits_{i=0}^{k-1}a_i\|\nabla f(x^k)\|^2+B_k(f(x^k)-f(x^*)).$$
迭代算法的目的是使$f(x^k)$下降或$\|\nabla f(x^k)\|$下降.$\bar{c}_k$的单调下降则是从总体上保证了它们加权求和的下降.\\
约定$B_k$为严格单调递增序列,且记
$$b_k=B_k-B_{k-1}>0.$$
当$j<i$时,求和式$\sum\limits_i^j=0$.因此,
$$\mathcal{C}_0=B_0(f(x^0)-f(x^k)).$$

\begin{corollary}\label{lem14:1}
    给定初始值$x^0\in\mathbb{R}^n$.定义
    $$x^k=\frac{B_{k-1}}{B_k}(x^{k-1}-\frac{1}{L}\nabla f(x^{k-1}))+\frac{b_k}{B_k}v^k.$$
    其中, $v^k=v^{k-1}-\frac{b_{k-1}}{L}\nabla f(x^{k-1})$, $v^0=x^0$.\\
    若$b^2_k\leq B_k$且$a_{k-1}\leq \frac{B_{k-1}}{2L}$.则有
    $$\mathcal{C}_k-\mathcal{C}_{k-1}\leq \frac{L}{2}(\| x^*-v^k\|^2-\| x^*-v^{k+1}\|^2),\forall k\geq 1.$$
    \begin{remark}
        \cref{lem14:1}中定义的算法可写成
        \begin{equation}\label{N2}
            \left\{\begin{aligned}
                y^k & = x^{k-1}-\frac{1}{L}\nabla f(x^{k-1}),             \\
                v_k & =v^{k-1}-\frac{b_{k-1}}{L}\nabla f(x^{k-1}),        \\
                x^k & =\frac{B_{k-1}}{B_k}y^k+(1-\frac{B_{k-1}}{B_k})v^k.
            \end{aligned}\right.\tag{N$_2$}
        \end{equation}
        算法的前两步为不同步长的梯度下降,最后一步为两个梯度下降序列的凸组合.通过设计“合适”的步长$\{b_k\}$以获得加速的效果.证明将依赖于光滑凸的特征不等式
        \begin{equation}\label{eq14:10}
            f(y)\geq f(x)+\langle\nabla f(x),y-x\rangle+\frac{1}{2L}\|\nabla f(x)-\nabla f(y)\|^2.
        \end{equation}
    \end{remark}
\end{corollary}

\begin{proof}
    由$\mathcal{C}_k$的定义可知
    $$\mathcal{C}_k-\mathcal{C}_{k-1}=a_{k-1}\|\nabla f(x^{k-1})\|^2+B_kf(x^k)-B_{k-1}f(x^{k-1})-b_kf(x^*).$$
    应用(\ref{eq14:10})式可分别得
    \begin{align}
        f(x^*)            & \geq f(x^k)+\langle\nabla f(x^k),x^*-x^k\rangle+\frac{1}{2L}\|\nabla f(x^k)\|^2.\label{eq14:11}                                                  \\
        f(x^k)-f(x^{k-1}) & \leq \langle\nabla f(x^k),x^k-x^{k-1}\rangle+\frac{1}{2L}\|\nabla f(x^k)-\nabla f(x^{k-1})\|^2\notag                                             \\
                          & =\langle\nabla f(x^k),x^k-x^{k-1}+\frac{1}{L}\nabla f(x^{k-1})\rangle-\frac{1}{2L}\|\nabla f(x^k)\|^2-\frac{1}{2L}\|\nabla f(x^{k-1})\|^2.\notag
    \end{align}
    于是, \begin{equation*}
        \begin{aligned}
            \mathcal{C}_k-\mathcal{C}_{k-1} & \leq -\frac{B_{k}}{2L}\|\nabla f(x^k)\|^2+(a_{k-1}-\frac{B_{k-1}}{2L})\|\nabla f(x_{k-1})\|^2                        \\
                                            & +B_{k-1}\langle\nabla f(x^k),x^k-x^{k-1}+\frac{1}{L}\nabla f(x^{k-1})\rangle+b_k\langle\nabla f(x^k),x^k-x^*\rangle.
        \end{aligned}
    \end{equation*}
    现运用$v^{k+1}=v^k-\frac{b_k}{L}\nabla f(x^k)$来估计$b_k\langle\nabla f(x^k),x^k-x^*\rangle$.
    \begin{equation*}
        \begin{aligned}
            b_k\langle\nabla f(x^k),x^k-x^*\rangle & =b_k\langle\nabla f(x^k),x^k-v^{k+1}\rangle+L\langle v^k-v^{k+1},v^{k+1}-x^*\rangle                                                  \\
                                                   & =b_k\langle\nabla f(x^k),x^k-v^k\rangle+\frac{b^2_k}{L}\|\nabla f(x^k)\|^2+\frac{L}{2}\| v^k-x^*\|^2                                 \\
                                                   & -\frac{L}{2}\| v^{k+1}-x^*\|^2-\frac{L}{2}\| v^{k+1}-v^k\|^2                                                                         \\
                                                   & =b_k\langle\nabla f(x^k),x^k-v^k\rangle+\frac{b^2_k}{2L}\|\nabla f(x^k)\|^2+\frac{L}{2}\| v^k-x^*\|^2-\frac{L}{2}\| v^{k+1}-x^*\|^2.
        \end{aligned}
    \end{equation*}
    因此,
    \begin{equation*}
        \begin{aligned}
            \mathcal{C}_k-\mathcal{C}_{k-1} & \leq \frac{b^2_k-B_k}{2L}\|\nabla f(x^k)\|^2+(a_{k-1}-\frac{B_{k-1}}{2L})\|\nabla f(x^{k-1})\|^2+\frac{L}{2}\| v^k-x^*\|^2 \\
                                            & -\frac{L}{2}\| v^{k+1}-x^*\|^2+\langle\nabla f(x^k),B_kx^k-B_{k-1}(x^{k-1}-\frac{1}{L}\nabla f(x^{k-1}))-b_kv^k\rangle
        \end{aligned}
    \end{equation*}
    结合参数$a_k$, $b_k$, $B_k$的假设条件及$x^k$的表达式可知结论成立.
\end{proof}

\begin{theorem}\label{thm14:3}
    若$\{x^k\}$为\cref{lem14:1}中算法生成,则
    \begin{equation}\label{eq14:12}
        f(x^k)-f(x^*)\leq \frac{2B_0(f(x^0)-f(x^*))+L\| x^0-x^*\|^2}{2B_k},
    \end{equation}
    且
    \begin{equation}\label{eq14:13}
        \sum\limits^k_{i=0}a_i\|\nabla f(x^i)\|^2\leq B_0(f(x^0)-f(x^*))+\frac{L}{2}\| x^0-x^*\|^2.
    \end{equation}
    特别地,若$b_0=B_0=1$, $b_k^2=B_k$, $a_k=\frac{B_k}{2L}$.则有
    \begin{equation}\label{eq14:14}
        f(x^k)-f(x^*)\leq \frac{4L\| x^0-x^*\|^2}{(k+1)(k+2)},
    \end{equation}
    且
    \begin{equation}\label{eq14:15}
        \min\limits_{0\leq i\leq k}\|\nabla f(x^i)\|^2\leq \frac{24L^2\| x^0-x^*\|^2}{(k+1)(k+2)(k+3)}.
    \end{equation}
\end{theorem}

\begin{proof}
    据\cref{lem14:1}知
    \begin{equation*}
        \begin{aligned}
            \mathcal{C}_k & \leq \mathcal{C}_0+\frac{L}{2}\| v^0-x^*\|^2-\frac{L}{2}\| v^{k+1}-x^*\|^2 \\
                          & \leq B_0(f(x^0)-f(x^*))+\frac{L}{2}\| x^0-x^*\|^2.
        \end{aligned}
    \end{equation*}
    于是, $\sum\limits_{i=0}^{k-1}a_i\|\nabla f(x^i)\|^2+B_k(f(x^k)-f(x^*))\leq B_0(f(x^0)-f(x^*))+\frac{L}{2}\| x^0-x^*\|^2$.因此, (\ref{eq14:12})式成立.又$B_k(f(x^k)-f(x^*))\geq \frac{B_k}{2L}\|\nabla f(x^k)\|^2\geq a_k\| \nabla f(x^k)\|^2$.可知(\ref{eq14:13})式也成立.由$b^2_k=B_k$可知
    $$(B_k-B_{k-1})^2=B_k.$$
    从而, $B_k=B_{k-1}+\frac{1}{2}+\sqrt{B_{k-1}+\frac{1}{4}}$.\\
    将$B_k=b_k^2$代入可得
    $$b_k=\frac{1+\sqrt{4b_{k-1}^2+1}}{2}$$
    (同于Nesterov算法中$a_k$的迭代公式).类似地
    $$b_k\geq \frac{1}{2}+b_{k-1}\geq 1+\frac{k}{2}=\frac{k+2}{2}.$$
    于是, $B_k\geq \sum\limits^k_{i=1}b_i+1\geq \sum\limits_{i=1}^k\frac{i+2}{2}=\frac{(k+1)(k+5)}{4}\geq \frac{(k+1)(k+2)}{4}$.
    $$\sum\limits^k_{i=0}B_i\geq \frac{(k+1)(k+2)(k+3)}{12}.$$
    最后结合$B_k$的估计与(\ref{eq14:12})式可得(\ref{eq14:14})式.而(\ref{eq14:15})可由如下方式得出.
    \begin{equation*}
        \begin{aligned}
            \min\limits_{0\leq i\leq k}\| \nabla f(x^i)\|^2 & \leq \frac{\sum_{i=0}^kB_i\|\nabla f(x^i)\|^2}{\sum^k_{i=0}B_i} \\
                                                            & =\frac{2L\sum_{i=0}^ka_i\|\nabla f(x^i)\|^2}{\sum^k_{i=0}B_i}   \\
                                                            & \leq \frac{24L^2\| x^0-x^*\|^2}{(k+1)(k+2)(k+3)}.
        \end{aligned}
    \end{equation*}
    其中应用了估计式$f(x^0)-f(x^*)\leq \frac{L}{2}\| x^0-x^*\|^2$.证毕.
\end{proof}

\section{加速算法的线性收敛}\label{sec14:3}
设$f$为$L$-光滑且$\mu$-强凸的函数,我们考虑如下形式的Nesterov加速:
\begin{equation}\label{eq14:16}
    \begin{aligned}
        y^{k+1} & =x^k-\frac{1}{L}\nabla f(x^k)                                                                   \\
        x^{k+1} & =(1+\frac{\sqrt{\kappa}-1}{\sqrt{\kappa}+1})y^{k+1}-\frac{\sqrt{\kappa}-1}{\sqrt{\kappa}+1}y^k.
    \end{aligned}
\end{equation}
其中$\kappa=\frac{L}{\mu}$为$f$的条件数, $0< \mu<L$.

\begin{theorem}\label{thm14:4}
    迭代格式(\ref{eq14:16})服从函数值的线性收敛:
    $$f(y^k)-f(x^*)\leq (1-\frac{1}{\sqrt{\kappa}})^k(\frac{\mu+L}{2}\| x^0-x^*\|^2).$$
    其中$x^*$为强凸函数$f$的唯一极小点.
\end{theorem}

\begin{proof}
    令$\tau=\frac{1}{\sqrt{\kappa}+1}$, $\gamma=\frac{1}{\sqrt{\kappa}-1}$.并记
    $$z^{k+1}:=\frac{1}{\tau}x^{k+1}-\frac{1-\tau}{\tau}y^{k+1}.$$
    考虑下述势能函数:
    $$x_k:=(1+\gamma)^k\left(f(y^k)-f(x^*)+\frac{\mu}{2}\| z^k-x^*\|^2\right).$$
    特别地, $\mathcal{C}_0=f(y^0)-f(x^*)+\frac{\mu}{2}\| z^0-x^*\|^2$.\\
    由于$x^0=y^0=z^0$以及$f$的$L$光滑性.可知
    $$\mathcal{C}_0\leq \frac{\mu+L}{2}\| x^0-x^*\|^2.$$
    接下来证明$\{\mathcal{C}_k\}$的单调性, i.e.
    \begin{equation}\label{eq14:17}
        \mathcal{C}_{k+1}\leq \mathcal{C}_k, \forall k\geq 0.
    \end{equation}
    由$\mathcal{C}_k$的定义,只需证明
    \begin{equation}\label{eq14:18}
        \Delta_k:=(1+\gamma)\left(f(y^{k+1})-f(x^*)\right)-\left(f(y^k)-f(x^*)\right)+\frac{\mu}{2}\left((1+\gamma)\| z^{k+1}-x^*\|^2-\| z^k-x^*\|^2\right)\leq 0.
    \end{equation}
    首先估计包含函数值的项.由$y^{k+1}$的表达式及$f$的$L$-光滑性
    $$f(y^{k+1})\leq f(x^k)-\frac{1}{2L}\|\nabla f(x^k)\|^2.$$
    因此,
    \begin{align}
        (1 & +\gamma)\left(f(y^{k+1})-f(x^*)\right)-\left(f(y^k)-f(x^*)\right)\nonumber                                                                                                         \\
           & \leq f(x^k)-f(y^k)+\gamma\left(f(x^k)-f(x^*)\right)-\frac{1+\gamma}{2L}\|\nabla f(x^k)\|^2\nonumber                                                                                \\
           & \leq \langle\nabla f(x^K),x^k-y^k\rangle+\gamma\left(\langle\nabla f(x^k),x^k-x^*\rangle-\frac{\mu}{2}\| x^k-x^*\|^2\right)-\frac{1+\gamma}{2L}\|\nabla f(x^k)\|^2.\label{eq14:19}
    \end{align}
    其中最后一个不等式的估计中,先后运用了$f$的凸性与强凸性.\\
    其次,消去估计式中的$y^k$.由$z^k$的定义知
    \begin{equation*}
        \begin{aligned}
            z^k & =(\frac{1}{\tau}-1)(x^k-y^k)+x^k \\
                & =\sqrt{\kappa}(x^k-y^k)+x^k.
        \end{aligned}
    \end{equation*}
    因此, $\gamma(z^k-z^*)=\sqrt{\kappa}\gamma(x^k-y^k)+\gamma(x^k-x^*)$.\\
    由于$\sqrt{\kappa}\gamma=1+\gamma$,可知
    $$(x^k-y^k)+\gamma(x^k-x^*)=\frac{1}{1+\gamma}(\gamma(z^k-x^*)+\gamma^2(x^k-x^*)).$$
    将该式代入(\ref{eq14:18})中,可得
    \begin{equation}\label{eq14:20}
        \frac{1}{1+\gamma}\langle\nabla f(x^k),\gamma(z^k-x^*)+\gamma^2(x^k-x^*)\rangle-\frac{\mu\gamma}{2}\| x^k-x^*\|^2-\frac{1+\gamma}{2L}\|\nabla f(x^k)\|^2.
    \end{equation}
    据$z^k$的表达式,可验证下述关系式
    $$z^{k+1}-x^*=\frac{1}{1+\gamma}(z^k-x^*)+\frac{\gamma}{1+\gamma}(x^k-x^*)-\frac{\gamma}{\mu(1+\gamma)}\nabla f(x^k).$$
    为简便起见.记
    $$X^k:=x^k-x^*,Z^k:=z^k-x^*,\nabla f(x^k)=\nabla^k.$$
    运用公式:
    $$\| a+b+c\|^2=\| a\|^2+\| b\|^2+\| c\|^2+2\langle a,b\rangle+2\langle b,c\rangle+2\langle a,c\rangle.$$
    可得:
    \begin{equation}\label{eq14:21}
        \begin{aligned}
            (1+\gamma)\| z^{k+1}-x^*\|^2-\| z^k-x^*\|^2 & =\frac{1}{1+\gamma}\left(\| Z^k\|^2+\gamma^2\| X^k\|^2+\frac{\gamma^2}{\mu^2}\| \nabla^k\|^2+2\gamma\langle Z^k,X^k\rangle\right. \\
                                                        & \left.-\frac{2\gamma}{\mu}\langle\nabla^k,Z^k\rangle-\frac{2\gamma^2}{\mu}\langle\nabla^k,X^k\rangle \right)-\| Z^k\|^2.
        \end{aligned}
    \end{equation}
    将(\ref{eq14:20})与$\frac{\mu}{2}\times$(\ref{eq14:21})求和后进行消项可继续推导如下
    \begin{equation*}
        \begin{aligned}
            \Delta_k & \leq \frac{\mu\gamma}{2}\| X^k\|^2\left(-1+\frac{\gamma}{1+\gamma}\right)+\frac{\mu}{2}\| Z^k\|^2\left(\frac{1}{1+\gamma}-1\right)+\frac{\mu\gamma}{1+\gamma}\langle Z^k,X^k\rangle \\
                     & =-\frac{\mu\gamma}{2(1+\gamma)}\left(\| X^k\|^2+\| Z^k\|^2-2\langle X^k,Z^k\rangle\right)                                                                                           \\
                     & =-\frac{\mu\gamma}{2(1+\gamma)}\| X^k-Z^k\|^2\leq 0.
        \end{aligned}
    \end{equation*}
    因此,
    $$f(y^k)-f(x^*)\leq \frac{1}{(1+\gamma)^k}\mathcal{C}_k\leq \cdots\leq \frac{1}{(1+\gamma)^k}\mathcal{C}_0.$$
    从而定理获证.
\end{proof}

\begin{remark}
    在上述证明中,反在(\ref{eq14:19})式的推导中应用了强凸性:
    $$f(x^k)-f(x^*)\leq \langle\nabla f(x^k),x^k-x^*\rangle-\frac{\mu}{2}\| x^k-x^*\|^2.$$
    因此,我们可以用拟强凸性:
    $$f(x^*)\geq f(x)+\langle\nabla f(x),x^*-x\rangle+\frac{\mu}{2}\| x-x^*\|^2.$$
    替换掉强凸性.仍然可以推出\cref{thm14:4}中的收敛率.值得指出的是, Necoara-Nesterov-Glineur在他们最近的论文中针对$L$-光滑且$\mu$-拟强凸的函数研究了(\ref{eq14:16})的收敛性.但他们采用的是经典的估计序列方法.
\end{remark}

\section{重启加速方法}\label{sec14:4}
若拟强凸性进一步退化为二阶增长条件
\begin{equation}\label{eq14:22}
    f(x)-\bar{f}\geq \frac{\bar{\mu}}{2}\| x-\bar{x}\|^2.
\end{equation}
其中$\bar{x}$为$x$到$\mathop{\text{Argmin}} f(x)$的投影点,则我们可以借助重启技术(restart technology)对次线性收敛的Nesterov加速法进行加速以获得线性收敛的效果.具体而言, restart Nesterov加速方法可描述如下:
\begin{itemize}
    \item[1$\rangle$] 初始化$x^{0,0}=y^{0,0}=x^0\in\mathbb{R}^n$.并设定重启参数
        $$K=\sqrt{\frac{8\kappa }{\omega}}, \kappa=\frac{L}{\bar{\mu}}.$$
    \item[2$\rangle$] 运行Nesterov加速格式(\ref{N1})计算第$j$步迭代($j\geq 0$).得到$x^{k,j}$.
    \item[3$\rangle$] 重启: $x^{0,j+1}=x^{K,j}$, $y^{0,j+1}=x^{K,j}$.
\end{itemize}

\begin{theorem}\label{thm14:5}
    设$f$为$L$-光滑的凸函数且满足二阶增长条件(\ref{eq14:22}).若重启Nesterov加速算法$p$次并取$\omega=e^{-2}$,且记$x^k=x^{0,p}$.则有该算法线性收敛且当$\sqrt{\frac{e^{-2}}{2\kappa}}\approx0$时,
    $$f(x^k)-\bar{f}\lesssim  \left(1-\sqrt{\frac{e^{-2}}{2\kappa}}\right)^k\left(f(x^0)-\bar{f}\right).$$
\end{theorem}

\begin{proof}
    运用(\ref{N1})的次线性收敛及(\ref{eq14:22})式可知
    \begin{equation*}
        \begin{aligned}
            f(x^{0,p})-\bar{f} & =f(x^{k,p-1})-f(\bar{x}^{0,p-1})                                             \\
                               & \leq \frac{4L\| x^{0,p-1}-\bar{x}^{0,p-1}\|^2}{(K+2)^2}                      \\
                               & \leq \frac{8L}{\bar{\mu}(K+2)^2}\left(f(x^{0,p-1})-f(\bar{x}^{0,p-1})\right) \\
                               & \leq \omega\cdot\left(f(x^{0,p-1})-\bar{f}\right)                            \\
                               & \cdots                                                                       \\
                               & \leq \omega^p\left(f(x^0)-\bar{f}\right).
        \end{aligned}
    \end{equation*}
    其中$\bar{f}$为$f$的最优函数值, $\bar{x}^{0,p-1}$为$x^{0,p-1}$到最优解集的投影.于是,总的迭代次数为$k=p\cdot K$且
    $$f(x^k)-\bar{f}\leq (\omega^{\frac{1}{K}})^k\left(f(x^0)-\bar{f}\right).$$
    考虑极小化$\omega^{\frac{1}{K}}$.注意到
    $$\min\limits_\omega \omega^{\frac{1}{K}}\Leftrightarrow\min\limits_\omega \frac{1}{K}\log{\omega}=\sqrt{\frac{\omega}{8\kappa}}\log{\omega}.$$
    可知当$\omega=e^{-2}$时,收敛率因为$\omega^{\frac{1}{K}}$取最小值.因此, $f(x^k)-\bar{f}\leq \left(e^{-\sqrt{\frac{e^{-2}}{2\kappa}}}\right)^k\left(f(x^0)-\bar{f}\right)$.\\
    注意到当$t\approx0$时, $e^t\approx1+t$.因此当$\sqrt{\frac{e^{-2}}{2\kappa}}\approx 0$时
    $$e^{-\frac{e^{-2}}{2\kappa}}\approx 1-\sqrt{\frac{e^{-2}}{2\kappa}}.$$
    因而可知结论成立.
\end{proof}
~\par
比较\cref{thm14:4}与\cref{thm14:5}中的收敛率因子.可知两者反相差一个常数倍因子$\sqrt{\frac{e^{-2}}{2}}$.

\chapter{临近梯度法}\label{chap:15}

本章考虑下述复合优化问题:
\begin{equation}\label{eq15:1}
    \begin{aligned}
        \bar{\varphi} & :=\min\limits_{x\in\mathbb{R}^n}\{\varphi(x):=f(x)+g(x)\}, \\
        X^*           & :=\mathop{\text{Argmin}}\varphi\neq\emptyset.
    \end{aligned}
\end{equation}
其中$f,g:\mathbb{R}^n\rightarrow(-\infty,+\infty]$为正规的闭凸函数, $\text{dom}(g)\subset\text{int}(\text{dom}f$且$f$在$\text{int}(\text{dom}f$上连续可微.问题(\ref{eq15:1})包含几类常见的凸优化问题.比如$g\equiv 0$时, (\ref{eq15:1})退化成无约束的凸优化问题.再比如$g=\delta_\Omega$时, (\ref{eq15:1})退化为如下的约束优化问题
\begin{equation*}
    \begin{aligned}
         & \min        & f(x)       \\
         & \text{s.t.} & x\in\Omega
    \end{aligned}
\end{equation*}
因此,设计求解(\ref{eq15:1})的有效算法能解决很大一类问题.而临近梯度法(也称为向前向后分裂法)是求解(\ref{eq15:1})的一类典型方法.本章将重点讨论该算法的收敛性质.

\section{算法格式}\label{sec15:1}
临近梯度法的算法格式为
\begin{equation}\label{eq15:2}
    x^{k+1}=\textbf{prox}_{t_kg}(x^k-t_k\cdot\nabla f(x^k)).
\end{equation}
其中$t_k>0$为步长参数.从该格式中可看出,先做一个梯度下降步,记为
$$\tilde{x}^{k+1}=x^k-t_k\cdot\nabla f(x^k).$$
再做一个临近步,得到
$$x^{k+1}=\textbf{prox}_{t_kg}(\tilde{x}^{k+1}).$$
这一计算过程正是临近梯度法名称的由来.\\
据临近算子的定义,迭代格式(\ref{eq15:2})也可视为优化问题的解.
\begin{align}
    x^{k+1} & =\mathop{\text{argmin}}\limits_x\left\{t_kg(x)+\frac{1}{2}\| x-x^k+t_k\nabla f(x^k)\|^2\right\}\nonumber                                \\
            & =\mathop{\text{argmin}}\limits_x\left\{g(x)+\frac{1}{2t_k}\| x-x^k+t_k\nabla f(x^k)\|^2\right\}\nonumber                                \\
            & =\mathop{\text{argmin}}\limits_x\left\{g(x)+f(x^k)+\langle \nabla f(x^k),x-x^k\rangle+\frac{1}{2t_k}\| x-x^k\|^2\right\}.\label{eq15:3}
\end{align}
其中最后一式中我们将常数$f(x^k)$加入目标函数,它不会影响原优化问题的最优解.优化问题(\ref{eq15:3})的目标函数是原目标函数$g(x)+f(x)$的二阶近似.而参数$\tau_k$控制了近似程度.

优化问题(\ref{eq15:1})作为一般化问题,对应地,求解它的迭代算法(\ref{eq15:2})也可视为一般化的算法.事实上,当$g\equiv 0$时, (\ref{eq15:2})退化为梯度法;当$g=\delta_\Omega$时, (\ref{eq15:2})退化为投影梯度法
$$x^{k+1}=\Pi_\Omega(x^k-t_k\cdot\nabla f(x^k));$$
而当$f\equiv 0$时, (\ref{eq15:2})退化为临近法
$$x^{k+1}=\textbf{prox}_{t_kg}(x^k).$$
为了模仿梯度法的收敛性分析. (\ref{eq15:2})通常被写成类似与梯度法的格式
\begin{equation}\label{eq15:4}
    \begin{aligned}
        x^{k+1}=x^k-t_k\left[\frac{1}{t_k}(x^k-\textbf{prox}_{t_kg}(x^k-t_k\nabla f(x^k)))\right].
    \end{aligned}
\end{equation}
当$t>0$, $x\in\text{dom}(g)\cap\text{int}(\text{dom}f$时,
\begin{equation}\label{eq15:5}
    \mathcal{G}(x,t):=t^{-1}(x-\textbf{prox}_{tg}(x-t\nabla f(x))).
\end{equation}
则(\ref{eq15:4})式可简写成
$$x^{k+1}=x^k-t_k\cdot \mathcal{G}(x^k,t_k).$$
并称之为广义梯度法,其中的$\mathcal{G}(x,t)$称为梯度映射(gradient mapping).


\section{梯度映射的基本性质}\label{sec15:2}

\begin{lemma}\label{lem15:1}
    设$g:\mathbb{R}^n\rightarrow(-\infty,+\infty]$为正规闭凸函数, $t>0$.则
    $$z=\textbf{prox}_{tg}(y).$$
    当且仅当$y\in(I+t\cdot\partial g)(z)$.
\end{lemma}

\begin{proof}
    由临近算子的定义可知
    $$z=\textbf{prox}_{tg}(y)=\mathop{\text{argmin}}\limits_x\{tg(x)+\frac{1}{2}\| x-y\|^2\}.$$
    由最优化条件可知
    $$0\in t\cdot\partial g(z)+z-y.$$
    也即, $y\in(I+t\cdot\partial g)(z).$证毕.
\end{proof}

\begin{lemma}\label{lem15:2}
    $$\{x:\mathcal{G}(x,t)=0\}=\mathop{\text{Argmin}}\varphi(x).$$
\end{lemma}

\begin{proof}
    $x\in\mathop{\text{Argmin}}\varphi(x)$当且仅当
    \begin{align}
         & 0\in t\cdot\partial g(x)+t\cdot\nabla f(x), t>0.\nonumber           \\
         & \Leftrightarrow x-t\nabla f(x)\in (I+t\partial g)(x).\nonumber      \\
         & \Leftrightarrow x=\textbf{prox}_{tg}(x-t\nabla f(x)).\label{eq15:6} \\
         & \Leftrightarrow \mathcal{G}(x,t)=0\nonumber.
    \end{align}
    其中(\ref{eq15:6})式的推导应用了\cref{lem15:1}.证毕.
\end{proof}

\begin{lemma}\label{lem15:3}
    设$x\in\text{int}(\text{dom}f\cap\text{dom}(g)$.梯度映射的范数关于变量$\tau$为单调的:
    $$\frac{t_2}{t_1}\| \mathcal{G}(x,t_2)\|\geq \| \mathcal{G}(x,t_1)\|\geq \| \mathcal{G}(x,t_2)\|, \forall t_2\geq t_1>0.$$
\end{lemma}

\begin{proof}
    由定义知, $t\cdot\mathcal{G}(x,t)=x-\textbf{prox}_{tg}(x-t\nabla f(x))$.\\
    从而, $\textbf{prox}_{tg}(x-t\nabla f(x))=x-t\mathcal{G}(x,t)$.\\
    应用\cref{lem15:1}可得
    $$x-t\nabla f(x)\in x-t\mathcal{G}(x,t)+t\partial g(x-t\mathcal{G}(x,t)).$$
    也即, $\mathcal{G}(x,t)-\nabla f(x)\in \partial g(x-t\mathcal{G}(x,t)).$
    利用$\partial g$的单调性可得
    $$\langle (x-t_1\mathcal{G}(x,t_1))-(x-t_2\mathcal{G}(x,t_2)),\mathcal{G}(x,t_1)-\mathcal{G}(x,t_2)\rangle\geq 0.$$
    简化并应用Cauchy-Schwarz不等式可推得:
    \begin{equation*}
        \begin{aligned}
            t_1\| \mathcal{G}(x,t_1)\|^2+t_2\| \mathcal{G}(x,t_2)\|^2 & \leq (t_1+t_2)\langle \mathcal{G}(x,t_1),\mathcal{G}(x,t_2)\rangle \\
                                                                      & \leq (t_1+t_2)\|\mathcal{G}(x,t_1)\|\cdot\|\mathcal{G}(x,t_2)\|.
        \end{aligned}
    \end{equation*}
    于是,
    \begin{equation}\label{eq15:7}
        (\| \mathcal{G}(x,t_1)\|-\|\mathcal{G}(x,t_2)\|)(\|\mathcal{G}(x,t_1)\|-\frac{t_2}{t_1}\|\mathcal{G}(x,t_2)\|)\leq 0.
    \end{equation}
    若$\| \mathcal{G}(x,t_1)\|<\|\mathcal{G}(x,t_2)\|$, 则由$\frac{t_2}{t_1}\geq 1$可知
    $$\|\mathcal{G}(x,t_1)\|<\frac{t_2}{t_1}\|\mathcal{G}(x,t_2)\|.$$
    这与(\ref{eq15:7})式矛盾.因此,
    $$\|\mathcal{G}(x,t_1)\|\geq \| \mathcal{G}(x,t_2)\|$$
    且
    $$\|\mathcal{G}(x,t_1)\leq \frac{t_2}{t_1}\|\mathcal{G}(x,t_2)\|.$$
    证毕.
\end{proof}

\begin{lemma}\label{lem15:4}
    设$x\in\text{int}(\text{dom}f\cap\text{dom}(\partial g)$, $t>0$.则有
    $$\| \mathcal{G}(x,t)\|\leq d(0,\partial\varphi(x)).$$
\end{lemma}

\begin{proof}
    任取$s\in\partial\varphi(x)=\partial g(x)+\nabla f(x)$.于是
    $$x-t\nabla f(x)+ts\in(I+t\partial g)(x).$$
    应用\cref{lem15:1}可知
    $$x=\textbf{prox}_{tg}(x-t\nabla f(x)+ts).$$
    于是,由临近算子的非膨胀性
    \begin{equation*}
        \begin{aligned}
            t\|\mathcal{G}(x,t)\| & =\| x-\textbf{prox}_{tg}(x-t\nabla f(x))\|                                     \\
                                  & =\| \textbf{prox}_{tg}(x-t\nabla f(x)+ts)-\textbf{prox}_{tg}(x-t\nabla f(x))\| \\
                                  & \leq t\| s\|, \forall s\in\partial\varphi(x).
        \end{aligned}
    \end{equation*}
\end{proof}
~\par
为简单起见,我们引入下述函数类：
\begin{description}
    \item[$\bullet$] 定义$\mathcal{F}_L^{1,1}(\mathbb{R}^n)$为从$\mathbb{R}^n$到$\mathbb{R}$的$L$-光滑凸函数构成的函数类;
    \item[$\bullet$]  定义$\mathcal{S}_{\mu,L}^{1,1}(\mathbb{R}^n)$为从$\mathbb{R}^n$到$\mathbb{R}$的$L$-光滑且$\mu$-强凸的函数构成的函数类;
    \item[$\bullet$]  定义$\Gamma_0(\mathbb{R}^n)$为$\mathbb{R}^n$到$(-\infty, +\infty]$的正规闭凸函数构成的函数类.
\end{description}
显然, $ \mathcal{S}_{\mu,L}^{1,1}(\mathbb{R}^n) \subseteq  \mathcal{F}_L^{1,1}(\mathbb{R}^n)$.
我们用 "+" 表示迭代更新点,则临近梯度算法可以简化为
$$x^+=\textbf{prox}_{tg}(x-t\nabla f(x))=x-t\cdot\mathcal{G}_t(x), t>0.$$
由\cref{lem15:1}, 我们有
$x-t\nabla f(x)\in x^++ t\partial g(x^+).$
这意味着存在 $s^+\in \partial g(x^+)$ 使得
$$x^+=x-t(\nabla f(x)+s^+).$$

\begin{lemma}\label{lem15:5}
    设$\varphi=f+g$, $f=\mathcal{F}_L^{1,1}(\mathbb{R}^n)$, $0<t\leq\frac{1}{L}$.则有
    \begin{equation}\label{eq15:8}
        \varphi(x)-\varphi(y-t\mathcal{G}(y,t))\geq t(1-\frac{L}{2}t)\| \mathcal{G}(y,t)\|^2+\langle\mathcal{G}(y,t),x-y\rangle.
    \end{equation}
    特别地,当$t=\frac{1}{L}$时,
    \begin{equation}\label{eq15:9}
        \varphi(x)-\varphi(y-\frac{1}{L}\mathcal{G}(y,\frac{1}{L}))\geq \frac{1}{2L}\|\mathcal{G}(y,\frac{1}{L})\|^2+\langle\mathcal{G}(y,\frac{1}{L}).x-y\rangle.
    \end{equation}
\end{lemma}

\begin{proof}
    记$h(x,y):=g(x)+f(y)+\langle\nabla f(y),x-y\rangle+\frac{1}{2t}\| x-y\|^2$.
    \begin{equation}\label{eq15:10}
        y^+:=\mathop{\text{argmin}}\limits_xh(x,y).
    \end{equation}
    则有
    $$y^+=y-t\mathcal{G}(y,t).$$
    由$f$的$L$-光滑性可知
    \begin{equation*}
        \begin{aligned}
            \varphi(x) & =f(x)+g(x)\leq h(x,y)+(\frac{L}{2}-\frac{1}{2t})\| x-y\|^2.
        \end{aligned}
    \end{equation*}
    于是,
    $$\varphi(y^+)\leq h(y^+,y)+(\frac{L}{2}-\frac{1}{2t})\| y^+-y\|^2.$$
    进而,
    \begin{equation}\label{eq15:11}
        \varphi(x)-\varphi(y^+)\geq \varphi(x)-h(y^+,y)-(\frac{L}{2}-\frac{1}{2t})\| y^+-y\|^2.
    \end{equation}
    由(\ref{eq15:10})的最优性条件可知,存在$g_s\in\partial g(y^+)$使得
    \begin{equation}\label{eq15:12}
        0=g_s+\nabla f(y)+\frac{1}{t}(y^+-y).
    \end{equation}
    现应用$f,g$的次梯度不等式可得
    \begin{equation*}
        \begin{aligned}
            f(x) & \geq f(y)+\langle\nabla f(y),x-y\rangle \\
            g(x) & \geq g(y^+)+\langle g_s,x-y^+\rangle.
        \end{aligned}
    \end{equation*}
    对上面两式求和可得
    \begin{equation}\label{eq15:13}
        \varphi(x)\geq f(y)+g(y^+)+\langle\nabla f(y),x-y\rangle+\langle g_s,x-y^+\rangle.
    \end{equation}
    另一方面,
    \begin{equation}\label{eq15:14}
        h(y^+,y)=g(y^+)+f(y)+\langle y^+-y,\nabla f(y)\rangle+\frac{1}{2t}\| y^+-y\|^2.
    \end{equation}
    结合(\ref{eq15:11}), (\ref{eq15:13})和(\ref{eq15:14})式可知
    \begin{equation*}
        \begin{aligned}
            \varphi(x)-\varphi(y^+) & \geq \varphi(x)-h(y^+,y)-(\frac{L}{2}-\frac{1}{2t})\| y^+-y\|^2                                                                                  \\
                                    & \geq -\frac{1}{2t}\| y^+-y\|^2+\langle x-y^+,\nabla f(y)+y_s\rangle-(\frac{L}{2}-\frac{1}{2t})\| y^+-y\|^2                                       \\
                                    & \mathop{=}\limits^\text{(\ref{eq15:12})} -\frac{1}{2t}\| y^+-y\|^2+\frac{1}{t}\langle y-y^+,x-y^+\rangle-(\frac{L}{2}-\frac{1}{2t})\| y^+-y\|^2.
        \end{aligned}
    \end{equation*}
    运用$\mathcal{G}(y,t)=t^{-1}(y-y^+)$即可推出结论.证毕.
\end{proof}
~\par
接下来的分析将主要依赖于光滑与强凸的下述等价特征：
\begin{property}\label{prop15:1}
    若 $f\in \mathcal{S}^{1,1}_{\mu,L}(\mathbb{R}^n)$,则对任意的 $x, y\in \mathbb{R}^n$ 均有
    $$\mu\|x-y\|\leq \|\nabla f(x)-\nabla f(y)\|\leq L \|x-y\|,$$
    与
    $$\langle \nabla f(x)-\nabla f(y), x-y \rangle \geq \frac{\mu L}{\mu+ L}\|x-y\|^2+\frac{1}{\mu+L}\|\nabla f(x)-\nabla f(y)\|^2,$$
    以及
    $$f(x)\geq f(y)+\langle \nabla f(y), x-y\rangle+ \frac{1}{2L} \|\nabla f(x)-\nabla f(y)\|^2+\frac{\mu L}{2(L-\mu)}\|x-y-\frac{1}{L}(\nabla f(x)-\nabla f(y))\|^2.$$
\end{property}


\begin{lemma}\label{lem15:6}
    设$\varphi =f +g $, 其中 $f\in\mathcal{S}^{1,1}_{\mu,L}(\mathbb{R}^n)$,$g\in\Gamma_0(\mathbb{R}^n)$. 记 $\rho(t):=\max\{ |1-Lt|, |1-\mu t|\}$.  则临近梯度映射满足下述关系式：
    \begin{equation}\label{add10}
        \|\mathcal{G}_t(x^+)\|\leq d(0, \partial \varphi(x^+))\leq\rho(t)\|\mathcal{G}_t(x)\|\leq \rho(t) d(0, \partial \varphi(x)).
    \end{equation}
    特别地, 若 $f\in\mathcal{F}^{1,1}_{L}(\mathbb{R}^n)$, $g\in\Gamma_0(\mathbb{R}^n)$且 $0< t\leq \frac{2}{L}$,则有
    $$\|\mathcal{G}_t(x^+)\|\leq d(0, \partial \varphi(x^+))\leq \|\mathcal{G}_t(x)\| \leq d(0, \partial \varphi(x)).$$
\end{lemma}

\begin{proof}
    首先由 $s^+ \in \partial g(x^+)$ 可知 $d(0,\partial \varphi(x^+)) \le \| \nabla f(x^+) + s^+\|$. 因此,为证 \eqref{add10},只需证明$\|\nabla f(x^+)+s^+\|^2\leq \rho^2(t)\|\mathcal{G}_t(x)\|^2$.  应用\cref{prop15:1},推导如下：
    \begin{align*}
         & \|\nabla f(x^+)+s^+\|^2                                                                                                                                                  \\
         & =  \|\nabla f(x)+s^+ +\nabla f(x^+)-\nabla f(x)\|^2                                                                                                                      \\
         & =     \|\nabla f(x)+s^+\|^2+2\langle \nabla f(x)+s^+, \nabla f(x^+)-\nabla f(x) \rangle +  \|\nabla f(x^+)-\nabla f(x)\|^2                                               \\
         & =     \frac{1}{t^2}\|x^+-x\|^2-\frac{2}{t} \langle x^+-x, \nabla f(x^+)-\nabla f(x) \rangle +  \|\nabla f(x^+)-\nabla f(x)\|^2                                           \\
         & \leq  \frac{1}{t^2}\|x^+-x\|^2-\frac{2}{t}\left(\frac{\mu L}{\mu+ L}\|x^+-x\|^2+\frac{1}{\mu+L}\|\nabla f(x^+)-\nabla f(x)\|^2\right) +  \|\nabla f(x^+)-\nabla f(x)\|^2 \\
         & =     \frac{1}{t^2}\left[(1-\frac{2t\mu L}{\mu+ L})\|x^+-x\|^2 + t(t- \frac{2}{\mu+L})\|\nabla f(x^+)-\nabla f(x)\|^2 \right]                                            \\
         & \leq  \frac{1}{t^2}\left[(1-\frac{2t\mu L}{\mu+ L})\|x^+-x\|^2 + t\max\{L^2(t- \frac{2}{\mu+L}), \mu^2(t- \frac{2}{\mu+L})\}\|x^+-x \|^2 \right]                         \\
         & =     \frac{1}{t^2}\max\{1-\frac{2t\mu L}{\mu+ L} + tL^2(t- \frac{2}{\mu+L}), 1-\frac{2t\mu L}{\mu+ L}  +  t\mu^2(t- \frac{2}{\mu+L}) \}\|x^+-x \|^2                     \\
         & =     \frac{1}{t^2} \max\{ (1-Lt)^2, (1-\mu t)^2\}\|x^+-x \|^2=\rho^2(t)\|\mathcal{G}_t(x)\|^2.
    \end{align*}
\end{proof}
此处, 收敛因子 $\rho(t)$为最优;否则将与下述最优性结果矛盾:
$$\|\nabla f(x^+)+s^+\|^2\leq \rho^2(t)\|\nabla f(x)+s\|^2, ~~\forall s\in \partial g(x).$$

进一步地,我们可以得到一个精细的下降类型结果.
\begin{lemma}\label{lem15:7}
    设$\varphi = f + g $,其中 $f  \in \mathcal{S}^{1,1}_{\mu,L}(\mathbb{R}^n)$且$g\in\Gamma_0(\mathbb{R}^n)$. 则临近梯度算法满足下述关系式：
    \begin{equation}\label{add20}
        \varphi(x)\geq \varphi(x^+) +\frac{t}{2}\|\mathcal{G}_t(x)\|^2 + \frac{t}{2(1-\mu t)}\|\mathcal{G}_t(x^+)\|^2, 0< t\leq \frac{1}{L}.
    \end{equation}
    特别地,
    \begin{itemize}
        \item 若 $f \in \mathcal{F}^{1,1}_{L}(\mathbb{R}^n)$, $g \in \Gamma_0(\mathbb{R}^n)$,则有
              \begin{equation}\label{add21}
                  \varphi(x)\geq \varphi(x^+) +\frac{t}{2}\|\mathcal{G}_t(x)\|^2 + \frac{t}{2}\|\mathcal{G}_t(x^+)\|^2, 0< t\leq \frac{1}{L}.
              \end{equation}
        \item  若 $f \in \mathcal{F}^{1,1}_{L}(\mathbb{R}^n)$, $g \equiv 0$,则有
              \begin{equation}\label{add22}
                  f(x) \geq f(x^+) +\frac{t}{2}\|\nabla f(x)\|^2 + \frac{t}{2}\|\nabla f(x^+)\|^2, 0< t \leq \frac{1}{L}.
              \end{equation}
    \end{itemize}
\end{lemma}

\section{收敛理论}\label{sec15:3}
设迭代序列$\{x^k\}$由临近梯度法生成,也即
$$x^{k+1}=x^k-t_k\mathcal{G}(x^k,t_k),0<t_k\leq \frac{1}{L}.$$

\begin{theorem}\label{thm15:1}
    考虑最优化问题(\ref{eq15:1})并假设$f\in\mathcal{F}_L^{1,1}(\mathbb{R}^n)$.设步长$t_k=\frac{\delta}{L}$, $0<\delta<1$.则$\{x^k\}$收敛到$X^*$中的一点,
    $$\lim\limits_{k\rightarrow\infty}\varphi(x^k)=\bar{\varphi}.$$
    且按函数值次线性收敛
    $$\varphi(x^k)-\bar{\varphi}\leq \frac{Ld^2(x^0,X^*)}{2\delta k}.$$
\end{theorem}

\begin{proof}
    在\cref{lem15:5}的(\ref{eq15:8})式中取$y=x^k$, $t=t_k$.则有
    \begin{equation}\label{eq15:15}
        \varphi(x)-\varphi(x^{k+1})\geq \frac{1}{t_k}\left(1-\frac{L}{2}t_k\right)t_k^{-2}\| x^{k+1}-x^k\|^2+\langle x-x^k,t_k^{-1}(x^k-x^{k+1})\rangle.
    \end{equation}
    注意到,
    \begin{equation*}
        \begin{aligned}
            \langle x-x^k,x^k-x^{k+1}\rangle & = \langle x-x^k,x^k-x+x-x^{k+1}\rangle                                                           \\
                                             & =-\| x-x^k\|^2+\langle x-x^k,x-x^{k+1}\rangle                                                    \\
                                             & =-\| x-x^k\|^2+\frac{1}{2}\| x-x^k\|^2+\frac{1}{2}\| x-x^{k+1}\|^2-\frac{1}{2}\| x^k-x^{k+1}\|^2 \\
                                             & =\frac{1}{2}\| x-x^{k+1}\|^2-\frac{1}{2}\| x-x^k\|^2-\frac{1}{2}\| x^k-x^{k+1}\|^2.
        \end{aligned}
    \end{equation*}
    其中应用了公式$\langle a,b\rangle=\frac{1}{2}\| a\|^2+\frac{1}{2}\| b\|^2-\frac{1}{2}\| a-b\|^2$.
    于是,结合$t_k=\frac{\delta}{L}$可知,对$\forall x\in\mathbb{R}^n$均有
    $$\varphi(x)-\varphi(x^{k+1})\geq \frac{L}{2\delta}\| x-x^{k+1}\|^2-\frac{L}{2\delta}\| x-x^k\|^2+\frac{L(1-\delta)}{2\delta}\| x^{k+1}-x^k\|^2.$$
    在上式中取$x=x^*\in X$,可得
    \begin{equation}\label{eq15:16}
        \begin{aligned}
            \| x^*-x^k\|^2-\| x^*-x^{k+1}\|^2 & \geq \frac{2\delta}{L}(\varphi(x^{k+1})-\bar{\varphi})+(1-\delta)\| x^{k+1}-x^k\|^2 \\
                                              & \geq (1-\delta)\| x^{k+1}-x^k\|^2\geq 0.
        \end{aligned}
    \end{equation}
    因此$\{\| x^*-x^k\|^2\}$为非负单调递减序列,从而必为收敛序列.因而$\{x^k\}$为有界序列且由
    $$\| x^{k+1}-x^k\|^2\leq\frac{1}{1-\delta}(\| x^*-x^k\|^2-\| x^*-x^{k+1}\|^2).$$
    可知$\{\| x^{k+1}-x^k\|\}$收敛到零.\\
    对(\ref{eq15:16})式两边取极限可得
    $$\lim\limits_{k\rightarrow\infty}\varphi(x^k)=\bar{\varphi}.$$
    设$\bar{x}$为$\{x^k\}$的聚点,也即存在$\{x^{k_i}\}$收敛到$\bar{x}$.往证$x^k\rightarrow\bar{x}$且$\bar{x}\in X^*$.\\
    首先, $\| x^{k_i+1}-\bar{x}\|\leq \| x^{k_i+1}-x^{k_i}\|+\| x_{k_i}-\bar{x}\|\rightarrow 0$, $i\rightarrow \infty$.\\
    由(\ref{eq15:16})式知
    $$\frac{2\delta}{L}(\varphi(x^{k_i+1})-\bar{\varphi})\leq \| x^*-x^{k_i}\|^2-\| x^*-x^{k_i+1}\|^2-(1-\delta)\| x^{k_i}-x^{k_i+1}\|^2.$$
    令$i\rightarrow\infty$,则右端的极限为零.又$\varphi(\bar{x})\geq \bar{\varphi}$.因此
    $$\varphi(\bar{x})=\bar{\varphi}.$$
    因而$\bar{x}\in X^*$.重复前半部分的证明可知$\{\| x^k-\bar{x}\|^2\}$单调收敛,而$x^{k_i}\rightarrow\bar{x}$可知$\{\| x^{k_i}-\bar{x}\|^2\}$收敛于零.因此, $\{\| x^k-\bar{x}\|\}$收敛于零,也即$x^k\rightarrow \bar{x}$, $k\rightarrow \infty$.\\
    为推导次线性收敛,在(\ref{eq15:15})式取$x=x^k$并注意到
    $$1-\frac{L}{2}t_k\geq 1-\frac{L}{2}\cdot\frac{\delta}{L}=1-\frac{\delta}{2}\geq 0.$$
    可知
    $$\varphi(x^k)-\varphi(x^{k+1})\geq 0.$$
    再由(\ref{eq15:16})可知
    $$\frac{2\delta}{L}(\varphi(x^{k+1})-\bar{\varphi})\leq \| x^*-x^k\|^2-\| x^*-x^{k+1}\|^2.$$
    对上式从$k=0$到$n$求和可得
    $$\sum\limits^n_{k=0}\frac{2\delta}{L}(\varphi(x^{k+1})-\bar{\varphi})\leq \| x^*-x^0\|^2, \forall x^*\in X^*.$$
    因此,由$\{\varphi(x^k)\}$的单调性可知
    \begin{equation*}
        \begin{aligned}
            (n+1)(\varphi(x^{k+1})-\bar{\varphi}) & \leq \sum\limits^n_{k=0}(\varphi(x^{k+1})-\bar{\varphi}) \\
                                                  & \leq \frac{L}{2\delta}d^2(x^0,X^*).
        \end{aligned}
    \end{equation*}
    故有
    $$\varphi(x^{n+1})-\bar{\varphi}\leq \frac{L\cdot d^2(x^0,X^*)}{2\delta(n+1)}.$$
    证毕.
\end{proof}
~\par
已确定$\{x^k\}$的收敛和$\{\varphi(x^k)\}$的收敛率,接下来考虑$\{\| \mathcal{G}(x^k,t_k)\|\}$的收敛性.

\begin{theorem}\label{thm15:2}
    设$f\in\mathcal{F}^{1,1}_L(\mathbb{R}^n)$且步长$t_k\equiv t=\frac{\delta}{L}$满足$0<\delta\leq 1$.则$\{\| \mathcal{G}(x^k,t_k)\|\}$单调下降且
    $$\|\mathcal{G}(x^k,t_k)\|\leq \frac{L(\varphi(x^0)-\bar{\varphi})}{\delta k},\forall k\geq 1.$$
\end{theorem}

\begin{proof}
    令$\mathcal{C}_k:=t_k\cdot k\|\mathcal{G}(x^k,t_k)\|^2+\varphi(x^k)$,往证
    $$\mathcal{C}_{k+1}\leq \mathcal{C}_k,\forall k\geq 0.$$
    事实上,由$\mathcal{C}_k$的定义
    $$\mathcal{C}_{k+1}-\mathcal{C}_k=t_k(k+1)\|\mathcal{G}(x^{k+1},t_{k+1})\|^2-t_k k\|\mathcal{G}(x^k,t_k)\|^2+\varphi(x^{k+1})-\varphi(x^k).$$
    由\cref{lem15:7}可知
    $$\varphi(x^k)-\varphi(x^{k+1})\geq \frac{t_k}{2}\|\mathcal{G}(x^{k},t_k)\|^2+\frac{t}{2}\|\mathcal{G}(x^{k+1},t_k)\|^2.$$
    于是,
    $$\mathcal{C}_{k+1}-\mathcal{C}_k\leq t\left(k+\frac{1}{2}\right)(\| \mathcal{G}(x^{k+1},t_{k+1})\|^2-\| \mathcal{G}(x^k,t_k)\|^2).$$
    再由\cref{lem15:6}知
    $$\|\mathcal{G}(x^{k+1},t_{k+1})\|\leq \|\mathcal{G}(x^k,t_k)\|.$$
    因此$\mathcal{C}_{k+1}-\mathcal{C}_k\leq 0$.据此可知
    $$\varphi(x^k)+tk\cdot\|\mathcal{G}(x^k,t_k)\|^2\leq \cdots\leq \mathcal{C}_0=\varphi(x^0).$$
    从而,
    $$tk\|\mathcal{G}(x^k,t_k)\|^2\leq \varphi(x^0)-\varphi(x^k)\leq \varphi(x^0)-\bar{\varphi}.$$
    故,
    $$\|\mathcal{G}(x^k,t_k)\|^2\leq \frac{L(\varphi(x^0)-\bar{\varphi})}{\delta k}.$$
    证毕.
\end{proof}

\section{加速的临近梯度法}\label{sec15:4}
类似于加速梯度格式(\ref{N2}),考虑下述形式的加速临近梯度法:
\begin{equation}\label{APG}
    \left\{\begin{aligned}
        y^{k-1} & :=x^{k-1}-\frac{1}{L}\cdot\mathcal{G}(x^{k-1},\frac{1}{L}),       \\
        v^k     & :=v^{k-1}-\frac{b_{k-1}}{L}\cdot\mathcal{G}(x^{k-1},\frac{1}{L}), \\
        x^k     & :=\frac{B_{k-1}}{B_k}y^{k-1}+\frac{b_k}{B_k}v^k,
    \end{aligned}\right.\quad k\geq 1.\tag{APG}
\end{equation}
其中$B_k=\sum\limits^k_{i=0}b_i$, $b_i>0$为待定参数.为后述分析简便起见,我们将$\mathcal{G}(x^k,\frac{1}{L})$简记为$\mathcal{G}(x^k)$.\\
定义势能函数:
$$\mathcal{C}_k:=\sum\limits^k_{i=0}a_i\|\mathcal{G}(x_i)\|^2+B_k(\varphi(y^k)-\bar{\varphi}), k\geq 0.$$
其中$a_i>0$, $\forall i\geq 0$.

\begin{lemma}\label{lem15:8}
    设$f\in \mathcal{F}^{1,1}_L(\mathbb{R}^n)$,给定初始点$x^0=v^0\in\mathbb{R}^n$. (\ref{APG})生成序列$\{\mathcal{C}_k\}_{k\geq1}$.若参数$\{a_k\},\{b_k\}$满足
    $$a_k\leq \frac{B_k-b_k^2}{2L}.$$
    则$\mathcal{C}_k-\mathcal{C}_{k-1}\leq \frac{L}{2}(\| x^*-v^k\|^2-\| x^*-v^{k+1}\|^2)$, $k\geq 1$.其中$x\in X^*$.
\end{lemma}

\begin{proof}
    首先,由$\mathcal{C}_k$的定义可知,当$k\geq 1$时
    \begin{equation}\label{eq15:17}
        \mathcal{C}_k-\mathcal{C}_{k-1}\leq a_k\| \mathcal{G}(x^k)\|^2+B_k\varphi(y^k)-B_{k-1}\varphi(y^{k-1})-b_k\bar{\varphi}.
    \end{equation}
    在\cref{lem15:5}的(\ref{eq15:9})式中,取$x=x^*$, $y=x^k$可得
    \begin{equation}\label{eq15:18}
        \bar{\varphi}\geq \varphi(y^k)+\frac{1}{2L}\|\mathcal{G}(x^k)\|^2+\langle \mathcal{G},x^*-x^k\rangle.
    \end{equation}
    在\cref{lem15:5}的(\ref{eq15:9})式中,再取$x=y^{k-1}$, $y=x^k$可得
    \begin{equation}\label{eq15:19}
        \varphi(y^{k-1})-\varphi(y^k)\geq \frac{1}{2L}\| \mathcal{G}(x^k)\|^2+\langle \mathcal{G}(x^k),y^{k-1}-x^k\rangle.
    \end{equation}
    结合(\ref{eq15:17})-(\ref{eq15:19})式可推导如下:
    \begin{align}
        \mathcal{C}_k & -\mathcal{C}_{k-1}\nonumber                                                                                                                                                                                     \\
                      & \leq a_k\|\mathcal{G}(x^k)\|^2+B_k\varphi(y^k)-B_{k-1}\varphi(y^{k-1})-b_k\varphi(y^k)
        -\frac{b_k}{2L}\|\mathcal{G}(x^k)\|^2-b_k\langle \mathcal{G}(x^k),x^*-x^k\rangle\nonumber                                                                                                                                       \\
                      & =a_k\| \mathcal{G}(x^k)\|^2+B_{k-1}(\varphi(y^k)-\varphi(y^{k-1}))
        -\frac{b_k}{2L}\|\mathcal{G}(x^k)\|^2-b_k\langle \mathcal{G}(x^k),x^*-x^k\rangle\nonumber                                                                                                                                       \\
                      & \leq a_k\|\mathcal{G}(x^k)\|^2-\frac{B_{k-1}}{2L}\|\mathcal{G}(x^k)\|^2-B_{k-1}\langle\mathcal{G}(x^k),y^{k-1}-x^k\rangle
        -\frac{b_k}{2L}\|\mathcal{G}(x^k)\|^2-b_k\langle\mathcal{G}(x^k),x^k-x^*\rangle\nonumber                                                                                                                                        \\
                      & =\left(a_k-\frac{B_k}{2L}\right)\|\mathcal{G}(x^k)\|^2+b_k\left\langle \mathcal{G}(x^k),x^k-x^*\right\rangle+B_{k-1}\langle \mathcal{G}(x^k),x^k-x^{k-1}+\frac{1}{L}\mathcal{G}(x^{k-1})\rangle.\label{eq15:20}
    \end{align}
    接下来估计内积项$\langle\mathcal{G}(x^k),x^k-x^*\rangle$.注意到,
    \begin{equation*}
        \begin{aligned}
            v^{k+1} & =\mathop{\text{argmin}}\limits_u\left\{b_k\langle \mathcal{G}(x^k),u-v^k\rangle+\frac{L}{2}\| u-v^k\|^2\right\} \\
                    & =v^k-\frac{b_k}{L}\mathcal{G}(x^k).
        \end{aligned}
    \end{equation*}
    据此,
    \begin{equation*}
        \begin{aligned}
             & b_k\langle\mathcal{G}(x^k),x^k-x^*\rangle                                                                                                                               \\
             & =b_k\langle \mathcal{G}(x^k),x^k-v^{k+1}\rangle+L\langle v^k-v^{k+1},v^{k+1}-x^*\rangle                                                                                 \\
             & =b_k\langle \mathcal{G}(x^k),x^k-v^k\rangle+\frac{b_k^2}{L}\|\mathcal{G}(x^k)\|^2+\frac{L}{2}\| x^*-v^k\|^2-\frac{L}{2}\| x^*-v^{k+1}\|^2-\frac{L}{2}\| v^{k+1}-v^k\|^2 \\
             & =b_k\langle \mathcal{G}(x^k),x^k-v^k\rangle+\frac{b_k^2}{L}\|\mathcal{G}(x^k)\|^2+\frac{L}{2}\| x^*-v^k\|^2-\frac{L}{2}\| x^*-v^{k+1}\|^2s.
        \end{aligned}
    \end{equation*}
    将上式代入(\ref{eq15:20})式中,
    \begin{equation*}
        \begin{aligned}
            \mathcal{C}_k-\mathcal{C}_{k-1} & \leq \left(a_k-\frac{B_k-b_k^2}{2L}\right)\|\mathcal{G}(x^k)\|^2+\langle \mathcal{G}(x^k),B_k^k-B_{k-1}(x^{k-1}-\frac{1}{L}\mathcal{G}(x^{k-1}))-b_kv^k\rangle \\
                                            & +\frac{L}{2}\| x^*-v^k\|^2-\frac{L}{2}\| x^*-v^{k-1}\|^2                                                                                                       \\
                                            & \leq \frac{L}{2}\| x^*-v^k\|^2-\frac{L}{2}\| x^*-v^{k+1}\|^2.
        \end{aligned}
    \end{equation*}
    上式的推导中,我们应用了条件$a_k\leq \frac{B_k-b_k^2}{2L}$以及
    $$B_kx^k-B_{k-1}\left(x^{k-1}-\frac{1}{L}\mathcal{G}(x^{k-1})\right)-b_kv^k=B_kx^k-B_{k-1}y^{k-1}-b_kv^k=0.$$
    因此,结论成立.
\end{proof}

\begin{theorem}{加速的收敛率}\label{thm15:3}
    假设\cref{lem15:8}中的条件成立,并记
    $$\tilde{\mathcal{C}}:=a_0\|\mathcal{G}(x^0)\|^2+b_0(\varphi(y^0)-\bar{\varphi})+\frac{L}{2}\| x^*-v^0\|^2.$$
    则有
    $$\begin{array}{cc}
            \varphi(y^k)-\bar{\varphi}\leq \frac{\tilde{\mathcal{C}}}{B_k},        & k\geq 1. \\
            \sum\limits^k_{i=0}a_i\| \mathcal{G}(x^i)\|^2\leq \tilde{\mathcal{C}}, & k\geq 1.
        \end{array}$$
    特别地,当$b_k=\frac{1}{4}(k+1)$, $B_k=\frac{1}{8}(k+1)(k+2)$, $a_k=\frac{1}{32L}(k+1)^2$时,
    \begin{equation*}
        \begin{aligned}
            \varphi(y^k)-\bar{\varphi} & \leq \frac{8\tilde{\mathcal{C}}}{(k+1)(k+2)}.
            \min\limits_{0\leq i\leq k}\|\mathcal{G}(x^i)\|^2\leq \frac{192L-\tilde{\mathcal{C}}}{(k+1)(k+2)(k+3)}.
        \end{aligned}
    \end{equation*}
\end{theorem}

\begin{proof}
    由\cref{lem15:8}可知
    \begin{equation*}
        \begin{aligned}
            \mathcal{C}_k & \leq c_0+\frac{L}{2}\| x^*-v^0\|^2-\frac{L}{2}\| x^*-v^{k+1}\|^2                         \\
                          & \leq a_0\|\mathcal{G}(x^0)\|^2+B_0(\varphi(y^0)-\bar{\varphi})+\frac{L}{2}\| x^*-v^0\|^2 \\
                          & =\tilde{\mathcal{C}}.
        \end{aligned}
    \end{equation*}
    于是, $B_k(\varphi(y^k)-\bar{\varphi})\leq \mathcal{C}_k\leq\tilde{\mathcal{C}}, k\geq 1$且$\sum\limits^k_{i=0}a_i\|\mathcal{G}(x^i)\|^2\leq \mathcal{C}_k\leq \tilde{\mathcal{C}},k\geq 1$.
    从而第一部分获证.\\
    对第二部分,首先容易验证$a_k\leq \frac{B_k-b_k^2}{2L}$.\\
    事实上,
    \begin{equation*}
        \begin{aligned}
            \frac{B_k-b_k^2}{2L} & =\frac{1}{2L}\left[\frac{1}{\delta}(k+1)^2+\frac{1}{8}(k+1)-\frac{1}{16}(k+1)^2\right] \\
                                 & \geq \frac{1}{2L}\cdot\frac{1}{16}(k+1)^2                                              \\
                                 & =a_k.
        \end{aligned}
    \end{equation*}
    对$a_k$求和,
    $$\sum\limits^k_{i=0}a_i=\sum^k_{i=0}\frac{1}{32L}(i+1)^2=\frac{(k+1)(k+2)(2k+3)}{192L}.$$
    因此,
    \begin{equation*}
        \begin{aligned}
            \min\limits_{0\leq i\leq k}\| \mathcal{G}(x^i)\|^2 & \leq \frac{\sum\limits^k_{i=0}a_i\|\mathcal{G}(x^i)\|^2}{\sum\limits^k_{i=0}a_i} \\
                                                               & \leq \frac{192L\cdot\tilde{\mathcal{C}}}{(k+1)(k+2)(2k+3)}
        \end{aligned}
    \end{equation*}
    证毕.
\end{proof}

\section{基于线搜索的临近梯度法}\label{sec15:5}
Beck·Teboulle's线搜索:\\
给定$x\in\text{int}(\text{dom}f\cap\text{dom}(g)$, $\sigma>0$, $\theta\in(0,1)$.\\
第0步:记$\alpha=\sigma$, $x^+_\alpha=x-\alpha\cdot\mathcal{G}(x,\alpha)$.\\
第1步:若
\begin{equation}\label{eq15:25}
    f(x^+_0)>f(x)+\langle\nabla f(x),x^+_\alpha-x\rangle+\frac{1}{2\alpha}\| x^+_\alpha-x\|^2.
\end{equation}
则更新$\alpha\leftarrow\theta\alpha$.直至上式不再成立.对应的$\alpha$记为
$$\bar{\alpha}:=L(x,\sigma,\theta).$$

基于线搜索的临近梯度法:\\
第1步:取$x^0\in\text{int}(\text{dom}f\cap\text{dom}(g)$, $\sigma>0$, $\theta\in(0,1)$, $\alpha_{-1}=\sigma$.\\
第$k$步:
\begin{align}
    \alpha_k: & =L(x^k,\alpha_{k-1},\theta)\nonumber                              \\
    x^{k+1}   & =x^k-\alpha_k\cdot\mathcal{G}(x^k,\alpha_k)\label{LSPG}\tag{LSPG}
\end{align}

\begin{lemma}\label{lem15:9}
    记$g\in\Gamma_0(\mathbb{R}^n)$, $\alpha>0$.则$\forall x\in\text{dom}(g)$,均有
    $$\textbf{prox}_{\alpha g}(x)\rightarrow x,\alpha\rightarrow 0_+.$$
\end{lemma}

\begin{proof}
    记$z(\alpha):=\textbf{prox}_{\alpha g}(x)$.由\cref{lem15:1}可知
    $$x\in(I+\alpha\cdot \partial g)(z(\alpha)).$$
    因此,
    $$\frac{x-z(\alpha)}{\alpha}\in\partial g(z(\alpha)).$$
    于是,
    \begin{align}
        g(x)-g(z(\alpha)) & \geq \langle \frac{x-z(\alpha)}{\alpha},x-z(\alpha)\rangle\nonumber \\
                          & =\frac{1}{\alpha}\| x-z(\alpha)\|^2.\label{eq15:26}
    \end{align}
    由双共轭定理可知
    $$g(x)=g^{**}(x)=\sup\limits_u\{u^Tx-g^*(u)\}.$$
    因而, $\forall \varepsilon>0$.存在$u\in\mathbb{R}^n$.使得
    \begin{align}
        g(x) & \leq u^Tx-g^*(u)+\varepsilon\nonumber                             \\
             & \leq u^Tx-u^Tz(\alpha)+g^*(z(\alpha))+\varepsilon.\label{eq15:27}
    \end{align}
    结合(\ref{eq15:26})和(\ref{eq15:27})式可得
    $$u^Tx-u^T z(\alpha)+\varepsilon\geq \frac{1}{\alpha}\| x-z(\alpha)\|^2.$$
    从而,
    \begin{equation*}
        \begin{aligned}
            \| x-z(\alpha)\|^2 & \leq \alpha(\langle u,x-z(\alpha)\rangle+\varepsilon)     \\
                               & \leq \alpha\| u\|\cdot\| x-z(\alpha)\|+\alpha\varepsilon.
        \end{aligned}
    \end{equation*}
    可知$$\| x-z(\alpha)\|\leq \frac{\alpha\| u\|+\sqrt{\alpha^2\| u\|^2-4\alpha\varepsilon}}{2}\rightarrow0,\alpha\rightarrow0.$$
    故结论成立.证毕.
\end{proof}

\begin{lemma}\label{lem15:10}
    \begin{itemize}
        \item[(i)] Beck·Teboulle的线搜索必在有限步迭代后停止.
        \item[(ii)] $$\| x-u\|^2-\| x^+_{\bar{\alpha}}-u\|^2\geq 2\bar{\alpha}(\varphi(x^+_{\bar{\alpha}})-\varphi(u)),\forall u\in\mathbb{R}^2.$$
        \item[(iii)]   $$\varphi(x^+_{\bar{\alpha}})-\varphi(x)\leq \frac{1}{2\bar{\alpha}}\| x^+-x\|^2.$$
    \end{itemize}
\end{lemma}

\begin{proof}
    先证结论(i).若$x\in X^*$,则由\cref{lem15:2}可知$\mathcal{G}(x,\alpha)=0$.从而$x^+_\alpha=x$.因而可知(\ref{eq15:25})式不成立,线搜索将停留在第0步.\\
    因此,不妨设$x\notin X^*$,并假设线搜索不会通过有限步停止.换言之,对任意的$\alpha\in B:=\{\sigma,\sigma\theta,\sigma\theta^2,\cdots\}$均有
    \begin{equation}\label{eq15:28}
        f(x^+_\alpha)-f(x)>\langle\nabla f(x),x^+\alpha-x\rangle+\frac{1}{2\alpha}\| x^+_\alpha-x\|^2.
    \end{equation}
    注意到,
    \begin{equation*}
        \begin{aligned}
            \| x^+_\alpha-x\| & =\alpha\| \mathcal{G}(x,\alpha)                                                                             \\
                              & =\| x-\textbf{prox}_{\alpha g}(x-\alpha\nabla f(x))\|                                                       \\
                              & =\| x-\textbf{prox}_{\alpha g}(x)+\textbf{prox}_{\alpha g}(x)-\textbf{prox}_{\alpha g}(x-\alpha\nabla f(x)) \\
                              & \leq \| x-\textbf{prox}_{\alpha g}(x)\|+\alpha\|\nabla f(x)\|.
        \end{aligned}
    \end{equation*}
    其中最后一式应用了$\textbf{prox}_{\alpha g}$的非膨胀性,结合\cref{lem15:9}可知
    $$\| x^+_\alpha-x\|\rightarrow0,\alpha\rightarrow0.$$
    因而, $x^+_\alpha\rightarrow x$, $\alpha\rightarrow 0$.\\
    由$f$的次梯度不等式,
    \begin{equation*}
        \begin{aligned}
            \frac{1}{2\alpha}\| x^+\alpha-x\|^2 & <\langle x^+_\alpha-x,\nabla f(x^+_\alpha)-\nabla f(x)\rangle    \\
                                                & \leq \| x^+_\alpha-x\|\cdot\|\nabla f(x^+_\alpha)-\nabla f(x)\|.
        \end{aligned}
    \end{equation*}
    由$x\notin X^*\Rightarrow \mathcal{G}(x,\alpha)\neq 0$从而$x^+_\alpha-x\neq 0$.从而
    $$0<\frac{1}{2\alpha}\| x^+_\alpha-x\|\leq \| \nabla f(x^+_\alpha)-\nabla f(x)\|.$$
    由$\nabla f$的连续性可知
    $$\lim\limits_{\alpha\rightarrow0_+,\alpha\in B}\frac{\| x^+_\alpha-x\|}{\alpha}=0.$$
    也即$\lim\limits_{\alpha\rightarrow0_+,\alpha\in B}\| \mathcal{G}(x,\alpha)\|=0$.\\
    应用\cref{lem15:3}固定$\tau_0>\alpha$则有
    $$\|\mathcal{G}(x,\tau_0)\|\leq \|\mathcal{G}(x,\alpha)\|.$$
    令$\alpha\in B$且$\alpha\rightarrow 0_+$.可知$\|\mathcal{G}(x,\tau_0)\|=0$.再由\cref{lem15:2}可知$x\in X^*$.矛盾.\\

    下证(ii).由线搜索的停止规则可知
    \begin{equation}\label{eq15:29}
        f(x^+_{\bar{\alpha}})\leq f(x)+\langle\nabla f(x),x^+_{\bar{\alpha}}-x\rangle+\frac{1}{2\bar{\alpha}}\| x^+_{\bar{\alpha}}-x\|^2.
    \end{equation}
    由于$\frac{x-x^+_{\bar{\alpha}}}{\bar{\alpha}}=\mathcal{G}(x,\bar{\alpha})$.再由\cref{lem15:6}中推出的公式
    $$\mathcal{G}(x,\bar{\alpha})-\nabla f(x)\in\partial g(x^+_{\bar{\alpha}}).$$
    因此,
    $$\frac{x-x^+_{\bar{\alpha}}}{\bar{\alpha}}-\nabla f(x)\in\partial g(x^+_{\bar{\alpha}}).$$
    于是, $\forall u\in\mathbb{R}^n$.均有
    \begin{equation*}
        \begin{aligned}
            g(u)-g(x^+_{\bar{\alpha}}) & \geq \langle \frac{x-x^+_{\bar{\alpha}}}{\bar{\alpha}}-\nabla f(x),u-x^+_{\bar{\alpha}}\rangle. \\
            f(u)-f(x)                  & \geq \langle\nabla f(x),u-x\rangle.
        \end{aligned}
    \end{equation*}
    对上面两式求和并运用(\ref{eq15:29})式
    \begin{equation*}
        \begin{aligned}
            \varphi(u) & =(f+g)(u)                                                                                                                                                                                                               \\
                       & \geq f(x)+g(x^+_{\bar{\alpha}})+\langle\frac{x-x^+_{\bar{\alpha}}}{\alpha}-\nabla f(x),u-x^+_{\bar{\alpha}}\rangle+\langle\nabla f(x),u-x\rangle                                                                        \\
                       & = f(x)+g(x^+_{\bar{\alpha}})+\frac{1}{\alpha}\langle x-x^+_{\bar{\alpha}},u-x^+_{\bar{\alpha}}\rangle+\langle \nabla f(x),x^+_{\bar{\alpha}}-x\rangle                                                                   \\
                       & \mathop{\geq}\limits^{\text{(\ref{eq15:29})}}f(x^+_{\bar{\alpha}})+g(x^+_{\bar{\alpha}})+\frac{1}{\alpha}\langle x-x^+_{\bar{\alpha}},u-x^+_{\bar{\alpha}}\rangle-\frac{1}{2\bar{\alpha}}\| x^+_{\bar{\alpha}}-x\|^2    \\
                       & =\varphi(x^+_{\bar{\alpha}})-\frac{1}{2\bar{\alpha}}\| x-u\|^2+\frac{1}{2\bar{\alpha}}\| x^+_{\bar{\alpha}}-x\|^2+\frac{1}{2\bar{\alpha}}\| x^+_{\bar{\alpha}}-u\|^2-\frac{1}{2\bar{\alpha}}\| x^+_{\bar{\alpha}}-x\|^2 \\
                       & =\varphi(x^+_{\bar{\alpha}})-\frac{1}{2\bar{\alpha}}\| x-u\|^2+\frac{1}{2\bar{\alpha}}\| x^+_{\bar{\alpha}}-u\|^2.
        \end{aligned}
    \end{equation*}
    其中我们应用了$2\langle x-a,u-a\rangle=\| a-x\|^2+\| a-u\|^2-\| x-u\|^2$.\\
    从而(ii)获证.\\
    在(ii)中取$u=x$可得到(iii).证毕.
\end{proof}

\begin{theorem}{收敛性}\label{thm15:4}
    假设$\{x:\varphi(x)\leq\varphi(x^0)\}\subset\text{int}(\text{dom}f\cap\text{dom}(g)$且$\nabla f$在$\text{int}(\text{dom}f$上一致连续.则(\ref{LSPG})生成的序列$\{x^k\}\subset\text{int}(\text{dom}f\cap\text{dom}(g)$且收敛到$X^*$中的一点且
    $$\lim\limits_{k\rightarrow\infty}\varphi(x^k)=\bar{\varphi}.$$
\end{theorem}

\begin{proof}
    在\cref{lem15:10}的(iii)中,去$x=x^k$, $\bar{\alpha}=\alpha_k$.则有
    \begin{equation}\label{eq15:30}
        \varphi(x^{k+1})-\varphi(x^k)\leq -\frac{1}{2\alpha_k}\| x^{k+1}-x^k\|^2\leq 0.
    \end{equation}
    于是$\varphi(x^k)\leq \cdots\leq \varphi(x^0)$.从而
    $$x^k\in\text{int}(\text{dom}f\cap\text{dom}(g),\forall k\geq 0.$$
    应用\cref{lem15:10}的(ii)可得知$\forall x^*\in X^*$均有
    \begin{equation}\label{eq15:31}
        \| x^k-x^*\|^2-\| x^{k+1}-x^*\|^2\geq 2\alpha_k(\varphi(x^{k+1})-\bar{\varphi})\geq 0,\forall k\geq 0.
    \end{equation}
    可知$\{\| x^k-x^*\|\}$为单调递减序列且有非负下界,从而必为收敛序列.因此, $\{x^k\}$必为有界序列.设$\bar{x}$为$\{x^k\}$的聚点且令$x^{k_i}\rightarrow\bar{x}$, $i\rightarrow\infty$.其中$\{x^{k_i}\}\rightarrow\{x^k\}$.\\
    由(\ref{eq15:31})式,
    \begin{equation*}
        \begin{aligned}
            0 & \leq 2\alpha_k(\varphi(x^{k+1})-\bar{\varphi})\leq \| x^k-x^*\|^2-\| x^{k+1}-x^*\|^2 \\
              & =(\| x^k-x^*\|+\| x^{k+1}-x^*\|)\cdot(\| x^k-x^*\|-\| x^{k+1}-x^*\|)                 \\
              & \leq 2\| x^0-x^*\|\cdot\| x^k-x^{k+1}\|.
        \end{aligned}
    \end{equation*}
    因此,
    \begin{equation}\label{eq15:32}
        0\leq \varphi(x^{k+1})-\bar{\varphi}\leq \| x^0-x^*\|\cdot\frac{\| x^k-x^{k+1}\|}{\alpha_k}.
    \end{equation}
    不失一般性,设$x^0\notin X^*$.则$M:=\| x^0-x^*\|\in\mathbb{R}_{++}$.注意到$\alpha_k\leq \sigma$.由(\ref{eq15:30})式可知
    $$2\sigma(\varphi(x^k)-\varphi(x^{k+1}))\geq 2\alpha_k(\varphi(x^k)-\varphi(x^{k+1}))\geq \| x^k-x^{k+1}\|^2.$$
    于是,
    $$\infty>2\sigma(\varphi(x^0)-\varphi(x^*))\geq \sum\limits^\infty_{k=0}2\sigma(\varphi(x^k)-\varphi(x^{k+1}))\geq \sum\limits^\infty_{k=0}\| x^k-x^{k+1}\|^2.$$
    因而$\| x^k-x^{k+1}\|^2\rightarrow0$, $k\rightarrow\infty$.进而由$x^{k_i}\rightarrow \bar{x}$可知$x^{k_i+1}\rightarrow\bar{x}$.\\
    由$\alpha_k$的构造可知$\{\alpha_k\}$为单调递减的正数序列,从而必收敛.记其极限为$\alpha$.若$\alpha>0$,则由(\ref{eq15:31})式以及$\alpha\leq \alpha_k$可知
    $$\| x^{k_i}-x^*\|^2-\| x^{k_i+1}-x^*\|^2\geq \alpha(\varphi(x^{k_i+1})-\bar{\varphi})\geq 0.$$
    两边取下极限后可得$0\geq \lim\inf\limits_i\{\varphi(x^{k_i+1})\}-\bar{\varphi}\geq \varphi(\bar{x})-\bar{\varphi}$又$\varphi(\bar{x})\geq \bar{\varphi}$.因此$\varphi(\bar{x})=\bar{\varphi}$,从而$\bar{x}\in X^*$.重复\cref{thm15:1}中的证明可知$\{x^k\}$收敛于$\bar{x}$.现考虑$\alpha=0$的情形.令$\hat{\alpha}_{k_i}=\frac{\alpha_{k_i}}{\theta}>\alpha_{k_i}>0$.定义
    $$\hat{x}^{k_i}:=x^{k_i}-\hat{\alpha}_{k_i}\cdot\mathcal{G}(x^{k_i},\hat{\alpha}_{k_i}).$$
    则由线搜索规则
    \begin{equation}\label{eq15:33}
        f(\hat{x}^{k_i})>f(x^{k_i})+\langle\nabla f(x^{k_i}),\hat{x}^{k_i}-x^{k_i}\rangle+\frac{1}{2\hat{\alpha}_{k_i}}\| \hat{x}^{k_i}-x^{k_i}\|^2.
    \end{equation}
    由\cref{lem15:3},及$x^{k_i}$与$\hat{x}^{k_i}$的定义可知
    \begin{equation*}
        \begin{aligned}
            \| x^{k_i}-\hat{x}^{k_i}\| & =\hat{\alpha}_{k_i}\|\mathcal{G}(x^{k_i},\hat{\alpha}_{k_i})\|                             \\
                                       & \leq \hat{\alpha}_{k_i}\|\mathcal{G}(x^{k_i},\alpha_{k_i})\|                               \\
                                       & =\frac{\hat{\alpha}_{k_i}}{\alpha_{k_i}}\| \alpha_{k_i}\mathcal{G}(x^{k_i},\alpha_{k_i})\| \\
                                       & =\frac{1}{\theta}\| x^{k_i+1}-x^{k_i}\|\rightarrow 0,\quad i\rightarrow\infty.
        \end{aligned}
    \end{equation*}
    因此, $\|\hat{x}^{k_i}-x^{k_i}\|\rightarrow0$, $i\rightarrow\infty$.\\
    由(\ref{eq15:33})式及$f(\hat{x}^{k_i})-f(x^{k_i})\leq \langle\nabla f(\hat{x}^{k_i}),\hat{x}^{k_i}-x^{k_i}\rangle$可知
    \begin{equation*}
        \begin{aligned}
            \frac{1}{2\hat{\alpha}_{k_i}}\| \hat{x}^{k_i}-x^{k_i}\| & \leq \langle\nabla f(\hat{x}^{k_i})-\nabla f(x^{k_i}),\hat{x}^{k_i}-x^{k_i}\rangle \\
                                                                    & \| \nabla f(\hat{x}^{K_i})-\nabla f(x^{k_i})\|\cdot\| \hat{x}^{k_i}-x^{k_i}\|.
        \end{aligned}
    \end{equation*}
    从而,
    \begin{equation}\label{eq15:34}
        \frac{1}{2\hat{\alpha}^{k_i}}\|\hat{x}^{k_i}-x^{k_i}\|\leq \|\nabla f(\hat{x}^{k_i})-\nabla f(x^{k_i})\|\rightarrow 0,i\rightarrow\infty.
    \end{equation}
    其中(\ref{eq15:34})应用了$\nabla f$的一致连续性.在此应用\cref{lem15:3},
    $$\| x^{k_i+1}-x^{k_i}\|=\alpha_{k_i}\|\mathcal{G}(x^{k_i},\alpha_{k_i})\|\leq \hat{\alpha}_{k_i}\|\mathcal{G}(x^{k_i},\hat{\alpha}_{k_i})\|=\| x^{k_i}-\hat{x}^{k_i}\|.$$
    结合(\ref{eq15:34})式可知
    \begin{equation}\label{eq15:35}
        \frac{1}{2\alpha_{k_i}}\| x^{k_i+1}-x^{k_i}\|\leq \frac{1}{\theta\cdot2\hat{\alpha}_{k_i}}\| \hat{x}^{k_i}-x^{k_i}\|\rightarrow0,i\rightarrow\infty.
    \end{equation}
    现应用(\ref{eq15:32})式
    $$0\leq \varphi(x^{k_i+1})-\bar{\varphi}\leq 2M\frac{\| x^{k_i+1}-x^{k_i}\|}{2\alpha_{k_i}}\rightarrow0,i\rightarrow\infty.$$
    故$\varphi(\bar{x})\leq \lim\inf\{\varphi(x^{k_i+1})\}=\lim\limits_{i\rightarrow\infty}\varphi(x^{k_i+1})=\bar{\varphi}$.从而$\bar{x}\in X^*$.\\
    剩余部分可类似\cref{thm15:1}中的证明完成.证毕.
\end{proof}
~\par
相对某一参照函数$h$的光滑性是比$L$-光滑更一般的概念,但需要选取“合适”的参照函数.一旦$h$选定,非欧临近梯度算法可定义如下:
\begin{equation}\label{eq15:36}
    x^{k+1}\leftarrow\mathop{\text{argmin}}\limits_{x\in\mathbb{R}^n}\{g(x)+f(x^k)+\langle\nabla f(x^k),x-x^k\rangle+LD_h(x,x^k)\}.
\end{equation}
其中$f$为相对$h$的$L$-光滑函数,
$$D_h(x,x^k)=h(x)-h(x^k)-\langle\nabla h(x^k),x-x^k\rangle$$
为Bregman距离.将其代入(\ref{eq15:36})式,则有
$$x^{k+1}=\mathop{\text{argmin}}\limits_x\{g(x)+\langle\nabla f(x^k)-L\nabla h(x^k),x-x^k\rangle+L\cdot h(x)\}.$$
由最优性条件可知
$$0\in\partial g(x^{k+1})+L\cdot \nabla h(x^{k+1})+\nabla f(x^k)-L\nabla h(x^k).$$
于是,
$$x^{k+1}=(\nabla h+L^{-1}\partial g)^{-1}(\nabla h(x^k)-L^{-1}\nabla f(x^k)).$$
该算法可视为一个算法框架
\begin{itemize}
    \item $g\equiv 0$时, $x^{k+1}=(\nabla h)^{-1}(\nabla h(x^k)-L^{-1}\nabla f(x^k))$对应镜像下降法.
    \item $h=\frac{1}{2}\|\cdot\|^2$时, $x^{k+1}=\textbf{prox}_{L^{-1}g}(x^k-L^{-1}\nabla f(x^k))$对应临近梯度法.
    \item 等等.
\end{itemize}

\chapter{次梯度与条件梯度方法}\label{chap:16}
考虑下述约束优化问题
\begin{equation}\label{eq16:1}
    \begin{aligned}
         & \min    f(x),                                  \\
         & \text{s.t. } x\in\Omega\subseteq \mathbb{R}^n.
    \end{aligned}
\end{equation}
其中$f$与$\Omega$满足下列条件:
\begin{itemize}
    \item[(i)] $f:\mathbb{R}^n\rightarrow(-\infty,+\infty]$为正规闭凸函数;
    \item[(ii)] $\Omega\subseteq\mathbb{R}^n$为非空闭凸集且$\Omega\subseteq\text{int}(\text{dom}f)$;
    \item[(iii)] 最优解集记为$X^*\neq \emptyset$,最优函数值记为$\bar{f}$.条件$\Omega\subseteq\text{int}(\text{dom}f)$保证: $\forall x\in\Omega$均有$\partial f(x)\neq \emptyset$.
\end{itemize}
投影次梯度法可定义为:
\begin{equation}\label{eq16:2}
    x^{k+1}=\Pi_\Omega(x^k-t_k\cdot s^k),k\geq 0.
\end{equation}
其中初始点$x^0\in\Omega$, $t_k>0$为步长参数, $s^k\in\partial f(x^k)$为第$k$步的次梯度.由于$\Omega$为非空闭凸的,可知$x^{k+1}$被唯一地确定,我们已知次梯度不一定为下降方向,所以除了考虑迭代序列$\{x^k\}$与函数值序列$\{f(x^k)\}$外,我们还将考虑$\{f^k_b\}$.
$$f^k_b:=\min\limits_{0\leq i\leq k}f(x^i).$$
显然,该序列为单调下降序列.

\section{收敛性分析}\label{sec16:1}
投影次梯度法有下列四类常见的步长选取规则.
\begin{itemize}
    \item[$1\rangle$] 常数步长: $$t_k\equiv\alpha,k\geq 0,\alpha>0;$$
    \item[$2\rangle$] 缩减步长: $$t_k\rightarrow 0\text{ 且 }\sum\limits^\infty_{k=1}t_k=\infty;$$
    \item[$3\rangle$] Polyak步长: $$t_k=\frac{f(x^k)-\bar{f}}{\|s^k\|^2};$$
    \item[$4\rangle$] 修正Polyak步长: $$t_k=\frac{f(x^k)-f^k_b+\delta}{\|s^k\|^2}, \delta>0.$$
\end{itemize}

\begin{definition}{Lipschitz条件}\label{def16:1}
    若存在常数$L_f>0$,使得
    $$|f(x)-f(y)|\leq L_f\|x-y\|,\forall x,y\in\Omega,$$
    则称$f$在$\Omega$上满足$L_f$-Lipschitz连续性.
\end{definition}

\begin{lemma}\label{lem16:1}
    设$\Omega$为开集且$f$在$\Omega$上满足$L_f$-Lipschitz连续性,则有
    $$\|s\|\leq L_f,\forall s\in\partial f(x),x\in\Omega.$$
\end{lemma}
\begin{proof}
    任取$x\in\Omega$, $s\in\partial f(x)$.往证$\|s\|\leq L_f$.不妨$s\neq0$.取$g=\frac{s}{\|s\|}$.由$\Omega$为开集可知存在足够小的$\varepsilon>0$使得$x+\varepsilon \cdot g\in\Omega$,于是
    \begin{equation*}
        \begin{aligned}
            f(x+\varepsilon g) & \geq f(x)+\langle s,\varepsilon g\rangle \\
                               & =f(x)+\varepsilon\|s\|.
        \end{aligned}
    \end{equation*}
    进而,
    \begin{equation*}
        \begin{aligned}
            \varepsilon\|s\| & \leq f(x+\varepsilon g)-f(x)  \\
                             & \leq L_f\|x+\varepsilon g-x\| \\
                             & =\varepsilon \cdot L_f\|g\|   \\
                             & =\varepsilon \cdot L_f.
        \end{aligned}
    \end{equation*}
    因此, $\|s\|\leq L_f$.证毕.
\end{proof}

~\par 后续的收敛性分析将依赖于如下的基本引理.

\begin{lemma}\label{lem16:2}
    设$\{x^k\}$为投影次梯度法(\ref{eq16:2})应用于最优化问题(\ref{eq16:1})生成的序列.则对任意的$x\in\Omega$均有
    $$\|x^{k+1}-x\|^2\leq \|x^k-x\|^2-2t_k(f(x^k)-f(x))+t_k^2\|s_k\|^2, k\geq 1.$$
\end{lemma}

\begin{proof}
    基于投影算子的非膨胀性,
    \begin{equation*}
        \begin{aligned}
            \|x^{k+1}-x\|^2 & =\|\Pi_\Omega(x^k-t_ks^k)-\Pi_\Omega(x)\|^2               \\
                            & \leq \|x^k-t_ks^k-x\|^2                                   \\
                            & =\|x^k-x\|^2-2t_k\langle x^k-x,s^k\rangle+t^2_k\|x^k\|^2.
        \end{aligned}
    \end{equation*}
    运用次梯度不等式可知
    $$f(x^k)-f(x)\leq\langle s^k,x^k-x\rangle.$$
    结合这个不等式可推导结论成立.证毕.
\end{proof}

~\par 首先,我们推导常数步长情形下的收敛性.

\begin{theorem}\label{thm16:1}
    假设最优化问题(\ref{eq16:1})中的$f$在$\text{int}(\text{dom}f)$上满足$L_f$-Lipschitz连续性.则取常数步长$t_k\equiv \alpha$的投影次梯度法(\ref{eq16:2})有如下收敛性:
    \begin{align}
        \lim\limits_{k\rightarrow\infty}\inf f(x^k)\leq \bar{f}+\frac{\alpha L_f^2}{2},\label{eq16:3} \\
        \lim\limits_{k\rightarrow\infty} f^k_b\leq \bar{f}+\frac{\alpha L_f^2}{2}.\label{eq16:4}
    \end{align}
\end{theorem}

\begin{proof}
    先证明(\ref{eq16:4})式.在\cref{lem16:2}中取$x=x^*\in X^*$, $t_k=\alpha$可得
    \begin{equation}\label{eq16:5}
        f(x^k)-\bar{f}\leq \frac{1}{2\alpha}\left(\|x^k-x^*\|^2-\|x^{k+1}-x^*\|^2\right)+\frac{\alpha L_f^2}{2}.
    \end{equation}
    其中应用了\cref{lem16:1}的结论$\|s^k\|\leq L_f$.对(\ref{eq16:5})式从$k=0$到$N$求和可得
    \begin{equation*}
        \begin{aligned}
            \sum\limits^N_{k=0}(f(x^k)-\bar{f}) & \leq \frac{1}{2\alpha}\left(\|x^0-x^*\|^2-\|x^{N+1}-x^*\|^2\right)+\frac{\alpha L_f^2}{2}(N+1) \\
                                                & \leq \frac{1}{2\alpha}\|x^0-x^*\|^2+\frac{\alpha L_f^2}{2}(N+1).
        \end{aligned}
    \end{equation*}
    由$f^k_b$的定义可知
    $$(N+1)(f^N_b-\bar{f})\leq \sum\limits^N_{k=0}(f(x^k)-\bar{f}).$$
    于是, $$f^N_b-\bar{f}\leq \frac{\|x^0-x^*\|^2}{2\alpha(N+1)}+\frac{\alpha L_f^2}{2}.$$
    两边对$N$取极限即可得到(\ref{eq16:4})式.下证(\ref{eq16:5})式.\\
    反设(\ref{eq16:3})式不成立,也即
    \begin{equation}\label{eq16:6}
        \lim\limits_{k\rightarrow\infty}\inf f(x^k)>\bar{f}+\frac{\alpha L_f^2}{2}.
    \end{equation}
    令$a_k=\inf\limits_{i\geq k}\{f(x^i)\}$.则$\{a_k\}$单调上升且
    $$\lim\limits_{k\rightarrow\infty}a_k=\lim\limits_{k\rightarrow\infty}\inf f(x^k).$$
    于是由(\ref{eq16:6})可知存在$k_0$使得当$k\geq k_0$时, $a_k>\bar{f}+\frac{\alpha L_f^2}{2}$.\\
    进而有
    $$f(x^k)\geq a_k>\bar{f}+\frac{\alpha L_f^2}{2}.$$
    结合(\ref{eq16:5})式可得
    $$\|x^{k+1}-x^*\|^2\leq \|x^k-x^*\|^2,k\geq k_0.$$
    由于
    $$\sum\limits^\infty_{k=k_0}\left(\|x^k-x^*\|^2-\|x^{k+1}-x^*\|^2\right)\leq \|x^{k_0}-x^*\|^2<\infty$$
    且
    $$\|x^k-x^*\|^2-\|x^{k+1}-x^*\|^2>0,\forall k\geq k_0$$
    可知
    $$\lim\limits_{k\rightarrow\infty}\left(\|x^k-x^*\|^2-\|x^{k+1}-x^*\|^2\right)=0.$$
    据此,对(\ref{eq16:5})式两边取下极限,可得
    $$\lim\limits_{k\rightarrow\infty} f(x^k)\leq \bar{f}+\frac{\alpha L_f^2}{2}.$$
    这与(\ref{eq16:6})矛盾.从而(\ref{eq16:3})式成立.证毕.
\end{proof}

\begin{theorem}\label{thm16:2}
    在\cref{thm16:1}的相同条件下,带缩减步长的投影次梯度算法(\ref{eq16:2})有如下收敛性
    $$\lim\limits_{k\rightarrow\infty} f(x^k)=\bar{f}.$$
    若步长参数进一步满足$\sum\limits_{k=0}^\infty t_k^2\leq \infty$,则存在$x^*\in X$.使得$\lim\limits_{k\rightarrow\infty}\|x^k-x^*\|=0$.
\end{theorem}

\begin{proof}
    由于$f(x^k)\geq \bar{f}$可知$\lim\limits_{k\rightarrow\infty}\inf f(x^k)\geq \bar{f}$.假设$\lim\limits_{k\rightarrow\infty}\inf f(x^k)>\bar{f}$.则依照(\ref{eq16:6})式下方的推导可知.存在$k_0$使得当$k\geq k_0$时,
    $$f(x^k)>\bar{f}+\frac{\varepsilon}{2}.$$
    其中$\varepsilon=\lim\limits_{k\rightarrow\infty}\inf f(x^k)-\bar{f}>0$.\\
    在\cref{lem16:2}中取$x=x^*$并应用$\|s^k\|\leq L_f$可得
    \begin{equation}\label{eq16:7}
        \|x^{k+1}-x^*\|^2\leq \|x^k-x^*\|^2-2t_k(f(x^k)-\bar{f})+t^2_kL_f^2.
    \end{equation}
    于是,当$k\geq k_0$时,我们有
    \begin{equation*}
        \begin{aligned}
            \|x^{k+1}-x^*\|^2 & \leq \|x^k-x^*\|^2-2t_k\frac{\varepsilon}{2}+t^2_kL_f^2 \\
                              & =\|x^k-x^*\|^2-t_k(\varepsilon-t_kL_f^2).
        \end{aligned}
    \end{equation*}
    从而,
    \begin{equation}\label{eq16:8}
        t_k(\varepsilon-t_kL_f^2)\leq \|x^k-x^*\|^2-\|x^{k+1}-x^*\|^2.
    \end{equation}
    由于$t_k\rightarrow0$可知存在$k_1(\geq k_0)$使得当$k\geq k_1$时,
    $$\varepsilon-t_kL^2_f\geq \frac{\varepsilon}{2}.$$
    结合(\ref{eq16:8})式可得
    $$\frac{\varepsilon}{2}\cdot\sum\limits^\infty_{k=k_1}t_k\leq \|x^{k_1}-x^*\|^2<\infty.$$
    这与$\sum\limits^\infty_{k=0}t_k=\infty$矛盾.因此必有$\lim\limits_{k\rightarrow\infty}\inf f(x^k)=\bar{f}$.第一部分获证.下证$x^k\rightarrow x^*$.\\
    由(\ref{eq16:7})式及$f(x^k)\geq \bar{f}$可知
    \begin{equation}\label{eq16:9}
        \|x^{k+1}-x^*\|^2\leq \|x^k-x^*\|^2+t_k^2L_f^2.
    \end{equation}
    对上式从$k=0$到$N$求和可得
    \begin{equation*}
        \|x^{N+1}-x^*\|^2\leq \|x^0-x^*\|^2+L_f^2\sum\limits^N_{k=0}t_k^2.
    \end{equation*}
    从而
    $$\lim\limits_{k\rightarrow\infty}\sup \|x^k-x^*\|^2\leq \|x^0-x^*\|^2+L_f^2\sum t_k^2<\infty.$$
    可知$\{x^k\}$必为有界序列.因而它的子列也有界.取它的子列$\{x^{k_i}\}$使得
    $$\lim\limits_{i\rightarrow\infty}f(x^{k_i})=\bar{f}.$$
    再取子列$\{x^{k_i}\}$的收敛子列$\{x^{k_j}\}$,其极限记为$\bar{x}\in\Omega$ (因为$\Omega$为闭集),则由$f$的下半连续性可知
    $$f(\bar{x})\leq \lim\limits_{j\rightarrow\infty}\inf f(x^{k_j})=\lim\limits_{i\rightarrow\infty}f(x^{k_i})=\bar{f}.$$
    因此$\bar{x}\in X^*$.类似于(\ref{eq16:9})式,我们可得
    $$\|x^{k+1}-\bar{x}\|^2\leq \|x^k-\bar{x}\|^2+t_k^2L_f^2.$$
    于是对上式从$k_j$开始至$N>k_j$求和可得
    \begin{equation*}
        \begin{aligned}
            \|x^{N+1}-\bar{x}\|^2 & \leq \|x^{k_j}-\bar{x}\|^2+L_f^2\sum\limits^N_{i=k_j}t_i^2       \\
                                  & \leq \|x^{k_j}-\bar{x}\|^2+L_f^2\sum\limits^\infty_{i=k_j}t_i^2.
        \end{aligned}
    \end{equation*}
    对上式左边的$N$求上极限可得
    $$\lim\limits_{N\rightarrow \infty}\sup\|x^{N+1}-\bar{x}\|^2\leq \|x^{k_j}-\bar{x}\|^2+L_f^2\sum\limits^\infty_{i=k_j}t_i^2,\forall k_j.$$
    再对右边取极限,注意到$x^{k_j}\rightarrow\bar{x}$且$\sum\limits^\infty_{i=k_j}t_i^2<\infty$可知右边去极限后为零.因此
    $$\lim\limits_{k\rightarrow\infty}\|x^k-\bar{x}\|^2=0.$$
    证毕.
\end{proof}
~\par 为分析Polyak's步长.不妨设$s^k\neq 0$.否则$0\notin \partial f(x^k)$则$x^k$为$f$的全局极小从而也必为(\ref{eq16:1})的最优解算法可终止.

\begin{theorem}\label{thm16:3}
    在\cref{thm16:1}的条件下.带Polyak步长的投影次梯度法有如下收敛性质:
    \begin{itemize}
        \item[i)] $$\lim\limits_{k\rightarrow\infty}f(x^k)=\bar{f};$$
        \item[ii)] 存在$\bar{x}\in X^*$使得
            $$\lim\limits_{k\rightarrow\infty}\|x^k-\bar{x}\|=0;$$
        \item[iii)] $$f^k_b-\bar{f}\leq \frac{L_f\|x^0-x^*\|}{\sqrt{k+1}},k\geq 0.$$
    \end{itemize}
\end{theorem}

\begin{proof}
    在\cref{lem16:2}中取$x=x^*\in X^*$并运用Polyak步长的表达式
    $$t_k=\frac{f(x^k)-\bar{f}}{\|s^k\|^2}.$$
    可得
    \begin{equation*}
        \begin{aligned}
            \|x^{k+1}-x^*\|^2 & \leq \|x^k-x^*\|^2-\frac{(f(x^k)-\bar{f})^2}{\|s^k\|^2} \\
                              & \leq \|x^k-x^*\|^2-\frac{1}{L_f^2}(f(x^k)-\bar{f}).
        \end{aligned}
    \end{equation*}
    于是,
    $$\frac{1}{L_f^2}(f(x^k)-\bar{f})^2\leq \|x^k-x^*\|^2-\|x^{k+1}-x^*\|^2.$$
    对上式从$k=0$到$N$求和可得
    \begin{equation}\label{eq16:10}
        \begin{aligned}
            \frac{1}{L_f^2}\sum\limits^N_{k=0}(f(x^k)-\bar{f})^2 & \leq \|x^0-x^*\|^2-\|x^{N+1}-x^*\|^2 \\
                                                                 & \leq \|x^0-x^*\|^2.
        \end{aligned}
    \end{equation}
    因此,
    $$\sum^\infty_{k=0}(f(x^k)-\bar{f})<\infty.$$
    从而可知$f(x^k)\rightarrow\bar{f}$, $k\rightarrow\infty$.\\
    2)的证明可参照\cref{thm16:2}的后半部分完成.\\
    最后证明3).由(\ref{eq16:10})式以及
    $$f(x^k)-\bar{f}\geq f^N_b-\bar{f}\geq 0,k=0,\cdots,N.$$
    可知
    $$(N+1)(f^N_b-\bar{f})\leq L_f^2\|x^0-x^*\|^2.$$
    从而,
    $$f^N_b-\bar{f}\leq \frac{L_f\|x^0-x^*\|^2}{\sqrt{N+1}}.$$
    证毕.
\end{proof}
~\par 带修正Polyak步长的投影次梯度法有如下收敛性
$$\lim\limits_{k\rightarrow\infty}\inf f(x^k)\leq \bar{f}+\delta.$$
证明留作练习.

\section{收敛率分析}\label{sec16:2}
若$f$满足非光滑强凸性:
\begin{equation}\label{eq16:11}
    f(x)\geq f(y)+\langle s_y,x-y\rangle+\frac{\mu}{2}\|x-y\|^2,\forall s_y\in\partial f(y).
\end{equation}
则我们可以得到比\cref{thm16:3}中3)更好的收敛率.

\begin{theorem}\label{thm16:4}
    在\cref{thm16:1}的条件下,假设$f$满足强凸条件(\ref{eq16:11}):\\
    格式(\ref{eq16:2})取$t_k=\frac{2}{\mu(k+1)}$后生成迭代序列$\{x^k\}$.则$X^*=\{x^*\}$且有
    \begin{itemize}
        \item[(i)] $$f^k_b-\bar{f}\leq \frac{2L_f^2}{\mu(k+1)}.$$
        \item[(ii)] 且定义: $$z^k:=\sum\limits^k_{i=0}\frac{2i}{k(k+1)}x^i.$$
            则有
            $$f(z^k)-\bar{f}\leq \frac{2L_f^2}{\mu(k+1)}$$
            且
            $$\|z^k-x^*\|\leq \frac{2L_f}{\mu\sqrt{k+1}}.$$
    \end{itemize}
\end{theorem}

\begin{proof}
    一方面,由\cref{lem16:2}可得
    $$\|x^{k+1}-x^*\|^2\leq \|x^k-x^*\|^2-2t_k\langle s^k,x^k-x^*\rangle+t_k^2\|s^k\|^2.$$
    另一方面,在条件(\ref{eq16:11})中取$x=x^*$, $y=x^k$, $s_y=s^k$可得
    $$\bar{f}\geq f(x^k)+\langle s^k,x^*-x^k\rangle+\frac{\mu}{2}\|x^k-x^*\|^2.$$
    也即,
    $$-\langle s^k,x^k-x^*\rangle\leq \bar{f}-f(x^k)-\frac{\mu}{2}\|x^k-x^*\|^2.$$
    因此,再结合$\|s^k\|\leq L_f$可得
    $$\|x^{k+1}-x^*\|^2\leq (1-\mu t_k)\|x^k-x^*\|^2-2t_k(f(x^k)-\bar{f})+t_k^2L_f^2.$$
    于是,
    $$f(x^k)-\bar{f}\leq \frac{1}{2}(t^{-1}_k-\mu)\|x^k-x^*\|^2-\frac{1}{2}t^{-1}_k\|x^{k+1}-x^*\|^2+\frac{t_k}{2}L_f^2.$$
    将$t_k=\frac{2}{\mu(k+1)}$代入上式可得
    $$f(x^k)-\bar{f}\leq \frac{\mu(k-1)}{4}\|x^k-x^*\|^2-\frac{\mu(k+1)}{4}\|x^{k+1}-x^*\|^2+\frac{1}{\mu(k+1)}L_f^2.$$
    两边同乘以$k$后可得
    $$k(f(x^k)-\bar{f})\leq \frac{\mu k(k-1)}{4}\|x^k-x^*\|^2-\frac{\mu k(k+1)}{4}\|x^{k+1}-x^*\|^2+\frac{k}{\mu(k+1)}L_f^2.$$
    对上式从$k=0$到$N$求和可得
    \begin{equation}\label{eq16:12}
        \begin{aligned}
            \sum\limits^N_{k=0}k(f(x^k)-\bar{f})\leq -\frac{\mu}{4}N(N+1)\|x^{N+1}-x^*\|^2-\frac{L_f^2}{\mu}\sum\limits^N_{k=0}\frac{k}{k+1} \\
             & \leq N\frac{L_f^2}{\mu}.
        \end{aligned}
    \end{equation}
    因此,由$f(x^k)-\bar{f}\geq f^N_b-\bar{f}$, $k=0,1,\cdots,N$可知
    $$\left(\sum\limits^N_{k=0}k\right)\cdot\left(f^N_b-\bar{f}\right)\leq N\frac{L_f^2}{\mu}.$$
    因而
    $$f^N_b-\bar{f}\leq \frac{2L_f^2}{\mu(N+1)}, N\geq 0.$$
    从而(i)获证.\\
    由(\ref{eq16:12})可得
    $$\sum\limits^N_{k=1}k(f(x^k)-\bar{f})\leq N\frac{L_f^2}{\mu}.$$
    两边同时除以$\left(\sum\limits^N_{k=1}k\right)$可得
    $$\left(\sum\limits^N_{k=1}\frac{k}{\sum^N_{k=1}k}f(x^k)\right)-\bar{f}\leq \frac{2L_f^2}{\mu(N+1)}.$$
    由Jensen不等式可知,
    \begin{equation*}
        \begin{aligned}
            \sum\limits^N_{k=1}\frac{k}{\sum^N_{k=1}k}f(x^k) & \geq f\left(\sum\limits^N_{k=1}\frac{k}{\sum^N_{k=1}k}x^k\right) \\
                                                             & =f\left(\sum^N_{k=1}\frac{2k}{N(N+1)}x^k\right)                  \\
                                                             & =f(z^N).
        \end{aligned}
    \end{equation*}
    从而
    $$f(z^N)-\bar{f}\leq \frac{2L_f^2}{\mu N(N+1)}.$$
    最后,考虑$\tilde{f}(x)=f(x)+\delta_\Omega(x)$.由$x^*$的最优性可知
    $$0\in\partial \tilde{f}(x^*).$$
    再由(\ref{eq16:11})式可推出:对$\forall x\in\Omega$均有
    \begin{equation*}
        \begin{aligned}
            f(x) & \geq f(x^*)+\langle 0,x-x^*\rangle+\frac{\mu}{2}\| x-x^*\|^2 \\
                 & = f(x^*)+\frac{\mu}{2}\|x-x^*\|^2.
        \end{aligned}
    \end{equation*}
    易知$z^k\in\Omega$.因此,
    $$\|z^k-x^*\|\leq \sqrt{\frac{2}{\mu}\left(f(z^k)-\bar{f}\right)}\leq \frac{2L_f}{\mu\sqrt{k+1}}.$$
    证毕.
\end{proof}

\begin{remark}
    $z^k$的计算可用迭代公式:
    $$z^{k+1}=\frac{k}{k+2}z^k+\frac{2}{k+2}x^{k+1}.$$
\end{remark}

~\par 最后,为推导更强的线性收敛率,我们引入增长条件:
\begin{equation}\label{eq16:13}
    f(x)-\bar{f}\geq \mu d(x,X^*),\forall x\in X.
\end{equation}

\begin{theorem}\label{thm16:5}
    在\cref{thm16:1}的条件下假设$f$满足增长条件(\ref{eq16:13})则带Polyak步长的投影次梯度法线性收敛,也即
    $$[d(x^k,X^*)]^2\leq (1-\frac{\mu^2}{L_f^2})^k[d(x^0,X^*)]^2,k\geq 0.$$
\end{theorem}

\begin{proof}
    首先,由\cref{thm16:3}的证明过程可知对$\forall x^*\in X^*$,
    $$\|x^{k+1}-x^*\|^2\leq \|x^k-x^*\|^2-\frac{(f(x^k)-\bar{f})^2}{L_f^2},\forall k\geq 0.$$
    在上式中取$x^*=\Pi_\Omega(x^k)$并注意到
    $$d(x^{k+1},X^*)\leq \|x^{k+1}-\Pi_\Omega(x^k)\|^2.$$
    可得
    $$[d(x^{k+1},X^*)]^2\leq [d(x^k,X^*)]^2-\frac{(f(x^k)-\bar{f})^2}{L_f^2}.$$
    应用条件(\ref{eq16:13})可知
    $$f(x^k)-\bar{f}\geq \mu d(x^k,X^*).$$
    结合最后两式可得
    $$[d(x^k,X^*)]^2\leq (1-\frac{\mu^2}{L_f^2})[d(x^k,X^*)]^2.$$
    因而结论成立.
\end{proof}

\section{应用举例}\label{sec16:3}
考虑凸的可行性问题:
\begin{equation}\label{eq16:14}
    \text{寻找 }x\in\Omega:=\bigcap\limits^\infty_{i=1}\Omega_i\neq \emptyset.
\end{equation}
其中$\Omega_1,\Omega_2,\cdots,\Omega_m\subset\mathbb{R}^n$均为闭凸集.
记$d_i(x):=d(x,\Omega_i)$, $i=1,\cdots,m$,
$$v_x:=(d_i(x))^n_{i=1}\in\mathbb{R}^m.$$
则(\ref{eq16:14})可等价于最优化问题:
\begin{equation}\label{eq16:15}
    \bar{f}:=\min\limits_{x\in\mathbb{R}^n}f(x):=\|v_x\|_p.
\end{equation}
其中$p$为$[1,\infty]$中固定的常数, $\|\cdot\|_p$定义为
$$\|z\|_p:=\left\{\begin{array}{cc}
        \left(\sum|z_i|^p\right)^{\frac{1}{p}}, & p\geq1,    \\
        \max\limits_{0\leq i\leq m}|z_i|,       & p=+\infty.
    \end{array}\right.$$
由于$\Omega\neq \emptyset$,可知最优函数值$\bar{f}=0$.而(\ref{eq16:15})的最优解集$X^*=\Omega$.此外,我们还可验证$f$为Lipschitz连续的函数.

\begin{lemma}\label{lem16:3}
    设$\Omega_1,\Omega_2,\cdots,\Omega_m$为非空闭凸集,则(\ref{eq16:15})中给出的函数$f$必为$\sqrt[p]{m}$-Lipschitz连续的函数.
\end{lemma}

\begin{proof}
    固定下标$i\in\{1,2,\cdots,m\}$,取$x,y\in\mathbb{R}^n$.则有
    \begin{equation*}
        \begin{aligned}
            d_i(x) & =\|x-\Pi_{\Omega_i}(x)\|             \\
                   & \leq \|x-\Pi_{\Omega_i}(y)\|         \\
                   & =\|x-y+y-\Pi_{\Omega_i}(y)\|         \\
                   & \leq \|x-y\|+\|y-\Pi_{\Omega_i}(y)\| \\
                   & =\|x-y\|+d_i(y).
        \end{aligned}
    \end{equation*}
    于是,
    $$d_i(x)-d_i(y)\leq \|x-y\|.$$
    同理,
    $$d_i(y)-d_i(x)\leq \|x-y\|.$$
    因此,
    \begin{equation}\label{eq16:16}
        |d_i(x)-d_i(y)|\leq \|x-y\|.
    \end{equation}
    进一步地,由范数$\|\cdot\|_p$的三角不等式,
    \begin{equation*}
        \begin{aligned}
            |f(x)-f(y)| & =|\|v_x\|_p-\|v_y\|_p| \\
                        & \leq \|v_x-v_y\|_p.
        \end{aligned}
    \end{equation*}
    当$1\leq p<\infty$时,
    \begin{equation*}
        \begin{aligned}
            \|v_x-v_y\|_p & =\left(\sum\limits^m_{i=1}|d_i(x)-d_i(y)|^p\right)^{\frac{1}{p}} \\
                          & \mathop{\leq}^{\text{(\ref{eq16:16})}}\|x-y\|.
        \end{aligned}
    \end{equation*}
    约定$m^{\frac{1}{\infty}}=m^0=1$.则有统一的公式
    $$|f(x)-f(y)|\leq m^{\frac{1}{p}}\|x-y\|,1\leq p\leq \infty.$$
    从而结论成立.证毕.
\end{proof}
~\par
下面,我们应用带Polyak步长的投影次梯度法求解(\ref{eq16:15}).设初始点$x^0\in\mathbb{R}^n$,并假设迭代过程中$x^k\notin\Omega$,否则$x^k\in X^*$且$0\in\partial f(x^*)$.后者使Polyak步长选取失去意义.若$x^k\notin\Omega$,则保证了$0\notin\partial f(x^k)$.次梯度法的主要计算困难在于选取$\partial f(x^k)$.次梯度法的主要计算困难在于选取$\partial f(x^k)$中的次梯度.而此过程依赖于距离函数的次微分公式($d_C(x):=d(x,C)$):
$$\partial d_C(x)=\left\{\begin{array}{cc}
        \left\{\frac{x-\Pi_C(x)}{d_C(x)}\right\}, & x\notin C, \\
        N_C(x)\cap B[0,1]^n,                      & x\in C.
    \end{array}\right.$$
其中$C\subset\mathbb{R}^n$为非空闭凸集而$N_C(x)$为$C$在$x$处的法锥.
$$N_C(x):=\{y:\langle y,z-x\rangle\leq 0,\forall z\in C\}.$$
在简单的计算与分析后,我们发现反当$p=\infty$时,可得到$f(x^k)$的次梯度计算公式.比如,考虑$p=1$的情形,
$$\partial f(x^k)=\sum\limits^m_{i=1}\partial d_i(x^k).$$
尽管我们已假设$x^k\notin \Omega$,但不能确定是否对每个$\Omega_i$, $x^k\notin\Omega_i$.而一旦$x^k\in\Omega_i$,则
$$\partial d_i(x^k)=N_{\Omega_i}(x^k)\cap B[0,1]^n.$$
从而无法给出具体计算公式来选取$\partial d_i(x^k)$中的次梯度.\\
对于$p=\infty$的情形,
$$\partial f(x^k)=\text{conv}\{s^k_i:s^k_i\in\partial d_i(x^k),i\in I(x^k)\}.$$
其中$I(x^k):=\{i\in[m]:d_i(x^k)=f(x^k)\}$.\\
取$i_k\in I(x^k)$,则由于
$$d_{i_k}(x^k)=f(x^k)\neq 0.$$
可知$x^k\notin\Omega_{i_k}$.从而
$$s_{i_k}^k=\frac{x^k-\Pi_{\Omega_{i_k}}(x^k)}{d_{i_k}(x^k)}\in\partial d_{i_k}(x^k).$$
因此,可取$s^k_k\in\partial f(x^k)$.将其代入投影次梯度法中可得:
\begin{equation*}
    \begin{aligned}
        x^{k+1} & =x^k-\frac{f(x^k-\bar{f})}{\|s^k_{i_k}\|^2}\cdot s^k_{i_k}        \\
                & =x^k-\frac{d_{i_k}(x^k)-\bar{f}}{\|s^k_{i_k}\|^2}\cdot s^k_{i_k}  \\
                & =x^k-d_{i_k}(x^k)\frac{x^k-\Pi_{\Omega_{i_k}}(x^k)}{d_{i_k}(x^k)} \\
                & =\Pi_{\Omega_{i_k}}(x^k).
    \end{aligned}
\end{equation*}
其中我们应用了$\bar{f}=0$以及$\|s^k_{i_k}\|=1$.至此,我们实际上推导了一类贪婪投影算法:
\begin{itemize}
    \item 选取$$i_k\in\mathop{\text{argmin}}\limits_{1\leq i\leq m}d_i(x^k),$$
    \item 计算$$x^{k+1}=\Pi_{\Omega_{i_k}}(x^k).$$
\end{itemize}
基于投影次梯度法的收敛理论\cref{thm16:3}.可推出如下收敛结果.

\begin{corollary}\label{cor16:1}
    贪婪投影算法应用于(\ref{eq16:15})的$p=\infty$情形,生成序列$\{x^k\}$则有
    \begin{itemize}
        \item[(i)] 存在$x^*\in\Omega$使得$x^k\rightarrow x^*$, $k\rightarrow \infty$;
        \item[(ii)] $$\min_{0\leq j\leq k}\left\{\max\limits_{1\leq i\leq m}d_i(x^j)\right\}\leq \frac{d_\Omega(x^0)}{\sqrt{k+1}}.$$
    \end{itemize}
\end{corollary}

\section{推广的格式}\label{sec16:4}
首先,将$f$的假设条件推广到相对Lipschitz连续的情形.

\begin{definition}\label{def16:2}
    设$h$为连续可微的凸函数,考虑最优化问题(\ref{eq16:1})中的$f$与$\Omega$.若$\forall x,y\in\Omega$满足$x\neq y$以及$s_x\in\partial f(x)$均有
    $$\|s_x\|\leq \frac{L_r\cdot\sqrt{2D_h(y,x)}}{\|y-x\|}.$$
    则称$f$在$\Omega$上相对于$h$为$L_r$-Lipschitz连续的.
\end{definition}

显然,当$h(x)=\frac{1}{2}\|x\|^2$时,由于
$$D_h(y,x)=\frac{1}{2}\|x-y\|^2.$$
从而可知定义中的条件退化为$\|s_x\|\leq L_r$, $\forall x\in \Omega$.由\cref{lem16:1}知,该退化的条件为$f$在$\Omega$上$L_f$-Lipschitz连续的必要条件,而必要条件也是充分的(请验证).从这层意义上来说,定义给出了推广的条件.为了应用推广条件,我们首先推广投影次梯度法.注意到其迭代格式(\ref{eq16:2})可写成下述最优化问题解的形式:
$$x^{k+1}=\mathop{\text{argmin}}_{x\in\Omega}\{f(x^k)+\langle s^k,x-x^k\rangle+\frac{1}{2t_k}\|x-x^k\|^2\}.$$
现用Bregman距离替换掉其中欧氏距离的平方项$\|x-x^k\|^2$可得
\begin{equation}\label{eq16:17}
    x^{k+1}\in\mathop{\text{Argmin}}_{x\in\Omega}\{f(x^k)+\langle s^k,x-x^k\rangle+\frac{1}{t_k}D_h(x,x^k)\}.
\end{equation}
我们称迭代格式(\ref{eq16:17})为广义投影次梯度法,也称之为镜像下降算法.
\par 为了使(\ref{eq16:17})中的解唯一且讨论简单起见,可假设$h$为强凸的且$\Omega=\mathbb{R}^n$.此时,由最优化条件可得
$$0\in s^k+\frac{1}{t_k}\partial h(x^{k+1})-\frac{1}{t_k}\nabla h(x^k).$$
从而,
$$x^{k+1}=\nabla h^*(\nabla h(x^k)-t_k s^k).$$
换言之,先将$x^k$通过梯度算子映射到对偶空间后一次梯度下降得到
$$\nabla h(x^k)-t_ks^k.$$
然后,再做逆映射$((\nabla h)^{-1}=\nabla h^*)$回到原空间.这一过程正是“镜像下降”名称的由来.

\begin{lemma}\label{lem16:4}
    给定$z\in\mathbb{R}^n$以及凸函数$\psi(x)$.令
    $$z^+:=\mathop{\text{argmin}}_{x\in\Omega}\{\psi(x)+D_h(x,z)\}.$$
    则有
    $$\psi(x)+D_h(x,z)\geq \psi(z^+)+D_h(z^+,z)+D_h(x,z^+),\forall x\in\Omega.$$
\end{lemma}

\begin{proof}
    首先,由$D_h(x,z)$的定义可知
    $$z^+=\mathop{\text{argmin}}\{\psi(x)+\delta_\Omega(x)+h(x)-\langle \nabla h(z),x\rangle\}.$$
    由最优化条件可得
    $$0\in\partial \psi(z^+)+N_\Omega(z^+)+\nabla h(z^+)-\nabla h(z).$$
    其中应用了次微分公式$\partial \delta_\Omega(x)=N_\Omega(x)$.\\
    于是,存在$s^+\in\partial\psi(z^+)$.使得
    $$\nabla h(z)-\nabla h(z^+)-s^+\in N_\Omega(z^+).$$
    因而,对任意$x\in\Omega$均有
    $$\langle x-z^+,\nabla h(z)-\nabla h(z^+)-s^+\rangle\leq 0.$$
    一方面,由$D_h(\cdot,\cdot)$的定义可推出
    $$\langle x-z^+,\nabla h(z)-\nabla h(z^+)\rangle=D_h(x,z^+)+D_h(z^+,z)-D_h(x,z);$$
    另一方面,由$\psi$的凸性可知
    $$\psi(x)\geq \psi(z^+)+\langle s^+,x-z^+\rangle.$$
    结合上述三式可推出结论.证毕.
\end{proof}

\begin{lemma}\label{lem16:5}
    设$f$在$\Omega$上相对于$h$为$L_r$-Lipschitz连续的.则对任意的$t>0$, $x,y\in\Omega$以及$s_x\in\partial f(x)$均有
    \begin{equation}\label{eq16:18}
        \frac{1}{t}D_h(y,x)+\langle s_x,y-x\rangle+\frac{1}{2}tL_r^2\geq 0.
    \end{equation}
\end{lemma}

\begin{proof}
    由定义及Cauchy-Schwarz不等式,对任意$x\neq y$均有
    \begin{equation*}
        \begin{aligned}
            -\langle s_x,y-x\rangle & \leq \|s_x\|\cdot\|y-x\|                                  \\
                                    & \leq \frac{L_r\cdot\sqrt{2D_h(y,x)}}{\|y-x\|}\cdot\|y-x\| \\
                                    & =L_r\sqrt{2D_h(y,x)}                                      \\
                                    & \leq \frac{1}{2}tL_r^2+\frac{1}{t}D_h(y,x).
        \end{aligned}
    \end{equation*}
    其中最后一式应用了$a^2+b^2\geq 2ab$.从而推出(\ref{eq16:18})式.当$x=y$时, (\ref{eq16:18})式显然成立.
\end{proof}

\begin{theorem}\label{thm16:6}
    考虑最优化问题(\ref{eq16:1}).假设$f$在$\Omega$上相对于强凸函数$h$为$L_r$-Lipschitz连续的.则迭代格式(\ref{eq16:17})生成的序列$\{x^k\}$满足如下收敛性:
    \begin{equation}\label{eq16:19}
        f^N_b-\bar{f}\leq \frac{\tilde{d}(x^0,X^*)+\frac{L_r^2}{2}\sum^N_{k=0}t_k^2}{\sum^N_{k=0}t_k}.
    \end{equation}
    其中$\tilde{d}(x^0,X^*):=\inf_{x^*\in X^*}D_h(x^*,x^0)$.
\end{theorem}

\begin{proof}
    注意到(\ref{eq16:17})式可等价地写成
    $$x^{k+1}=\mathop{\text{argmin}}_{x\in\Omega}\{t_k\langle s^k,x-x^k\rangle+D_h(x,x^k)\}.$$
    应用\cref{lem16:4}可得对$\forall x\in\Omega$,
    $$t_k\langle s^k,x-x^k\rangle+D_h(x,x^k)\geq t_k\langle s^k,x^{k+1}-x^k\rangle+D_h(x^{k+1},x^k)+D_h(x,x^{k+1}).$$
    一方面,由$s^k\in\partial f(x^k)$及$f$的凸性,
    $$\langle s^k,x-x^k\rangle\leq f(x)-f(x^k).$$
    另一方面,由\cref{lem16:5}可得
    $$t_k\langle s^k,x^{k+1}-x^k\rangle\geq -D_h(x^{k+1},x^k)-\frac{t_k^2}{2}L_r^2.$$
    结合上述三式可推出
    $$t_k(f(x^k)-f(x))\leq D_h(x,x^k)-D_h(x,x^{k+1})+\frac{t_k^2}{2}L_r^2.$$
    在上式中取$x=x^*\in X^*$可得
    $$t_k(f(x^k)-\bar{f})\leq D_h(x^*,x^k)-D_h(x^*,x^{k+1})+\frac{t_k^2}{2}L_r^2.$$
    对该式从$k=0,\cdots,N$求和并注意到$f(x^k)\geq \max\{f^N_b,\bar{f}\}$可知
    \begin{equation*}
        \begin{aligned}
            f^N_b-\bar{f} & \leq \frac{1}{\sum^N_{k=0}t_k}\sum\limits^N_{k=0}t_k(f(x^k)-\bar{f})                                                     \\
                          & \leq \frac{1}{\sum^N_{k=0}t_k}\left(D_h(x^*,x^0)-D_h(x^*,x^{N+1})\right)+\frac{L_r^2\sum^N_{k=0}t_k^2}{2\sum^N_{k=0}t_k} \\
                          & \leq \frac{D_h(x^*,x^0)+\frac{L_r^2}{2}\sum^N_{k=0}t_k^2}{\sum^N_{k=0}t_k}.
        \end{aligned}
    \end{equation*}
    由$x^*\in Z^*$的任意性可知结论成立.证毕.
\end{proof}

~\par 特别地,当步长$t_k=\frac{1}{\sqrt{k+1}}$时,
\begin{equation*}
    \begin{aligned}
        \sum^N_{k=0}t_k^2=\sum^N_{k=0}\frac{1}{k+1}      & =1+\sum^N_{k=1}\frac{1}{k+1}                            \\
                                                         & \leq 1+\int^N_0\frac{1}{x+1}dx                          \\
                                                         & =1+\log(N+1),                                           \\
        \sum^N_{k=0}t_k=\sum^N_{k=0}\frac{1}{\sqrt{k+1}} & \geq \int^{N+1}_0\frac{1}{\sqrt{x+1}}dx\geq \sqrt{N+1}.
    \end{aligned}
\end{equation*}
代入(\ref{eq16:19})式可得
$$f^N_b-\bar{f}\leq \frac{\tilde{d}(x^0,X^*)+\frac{L_r^2}{2}(1+\log(N+1))}{\sqrt{N+1}}.$$
显然, $f^N_b\rightarrow\bar{f}$, $N\rightarrow\infty$.

\begin{problemset}
    \item 证明带修正Polyak步长的投影次梯度法有如下收敛性:
    $$\lim\limits_{k\rightarrow\infty}\inf f(x^k)\leq \bar{f}+\delta.$$
    \item 证明交替投影算法的如下收敛性:\\
    设$\Omega_1,\Omega_2$为非空闭凸集且$\Omega=\Omega_1\cap\Omega_2\neq \emptyset$.取初始值$x^0\in\Omega_2$.定义
    $$x^{k+1}=\Pi_{\Omega_2}\left(\Pi_{\Omega_1}(x^k)\right).$$
    则有\begin{itemize}
        \item[(i)] 存在$x^*\in\Omega$,使得$x^k\rightarrow x^*$, $k\rightarrow\infty$.
        \item[(ii)] $$\min_{0\leq i\leq k}d(x^i,\Omega)\leq \frac{d_\Omega(x^0)}{\sqrt{k+1}}.$$
    \end{itemize}
\end{problemset}

\chapter{条件梯度法}\label{chap:17}
条件梯度法也称为Frank-Wolfe方法,是Frank和Wolfe于1956年合作提出的求解二次规划的一类算法.本章我们基于该方法求解如下约束优化问题.
\begin{equation}\label{eq17:1}
    \begin{aligned}
         & \min        & f(x),       \\
         & \text{s.t.} & x\in\Omega.
    \end{aligned}
\end{equation}
其中$f$和$\Omega$满足下述条件:
\begin{itemize}
    \item[(i)] $f:\mathbb{R}^n\rightarrow\mathbb{R}$为连续可微的且满足梯度Lipschitz连续性:
        $$\|\nabla f(x)-\nabla f(y)\|\leq L\cdot\|x-y\|,\forall x,y\in\mathbb{R}^n;$$
    \item[(ii)] $\Omega\subset\mathbb{R}^n$为非空凸且有界闭的集合;
    \item[(iii)] 最优解集$X^*$非空,最优函数值记为$\bar{f}$.
\end{itemize}
给定参数序列$\{\alpha_k\}$与初始点$x^0\in\Omega$,条件梯度法按如下迭代格式生成逼近序列$\{x^k\}$:
\begin{equation}\label{eq17:2}
    \left\{\begin{array}{cc}
        y^k \in\mathop{\text{Argmin}}\limits_{y\in\Omega}\{\nabla f(x^k)^T\cdot y\}, \\
        x^{k+1} =\alpha_k y^k+(1-\alpha_k)x^k.
    \end{array}\right.
\end{equation}
其中步长参数$\alpha_k\in[0,1]$,而$y^k$为线性优化的某一个解,可能不唯一.与投影次梯度法在约束集上极小化二次函数不同,条件梯度法将在约束集上极小化一个线性函数,从而避免了往闭凸集$\Omega$上进行投影.简化子问题的求解.例如在稀疏优化中$\Omega=\{x\in\mathbb{R}^n:\|x\|_1\leq \tau\}$.此时,由于$\Omega=\text{conv}\{\pm \tau e_i:i=1,2,\cdots,n\}$.其中$e_i$为第$i$个元素为1、其他元素为零的标准向量,可知$y\in\Omega$可写成$\sum_{j=1}^{2^n}\tau \lambda_j\tilde{e}_j$, $\lambda_j\in\Delta_{2^n}$, $\tilde{e}_j\in\{\pm e_i:i=1,\cdots,n\}.$因此,带约束的线性优化可写成
$$y^k\in\mathop{\text{Argmin}}_\lambda\{\sum_{j=1}^{2^n}\tau\cdot\lambda_j\nabla f(x^k)^T\tilde{e}_j\},\text{ s.t. }\lambda_j\in\Delta_{2^n}.$$
设$i_k\in\mathop{\text{Argmax}}_i|\nabla_i f(x^k)|$.则从上述表达式可看出当$\lambda_{i_k}=1$时, $\tilde{e}_{i_k}=e_{i_k}\cdot\text{sign}(-\nabla_{i_k}f(x^k))$取最优解,也即$y^k=\text{sign}(-\nabla_{i_k}f(x^k))\cdot\tau e_{i_k}$.可见$y^k$仅有一个非零元素.若$x^0=0$,则(\ref{eq17:2})产生稀疏序列.

\section{收敛性分析}\label{sec17:1}
我们将考虑下述几类步长选取策略.
\begin{itemize}
    \item[$1\rangle$] 缩减步长:
        \begin{equation}\label{eq17:3}
            \alpha_k=\frac{2}{k+2}.
        \end{equation}
    \item[$2\rangle$] 精确搜索步长:
        \begin{equation}\label{eq17:4}
            \alpha_k=\mathop{\text{argmin}}_{\alpha\in[0,1]}f(x^k+\alpha(y^k-x^k)).
        \end{equation}
    \item[$3\rangle$] 基于Lipschitz常数的步长
        \begin{equation}\label{eq17:5}
            \alpha_k=\mathop{\text{argmin}}_{\alpha\in[0,1]}\alpha(y^k-x^k)^T\nabla f(x^k)+\frac{\alpha^2L}{2}\|y^k-x^k\|^2.
        \end{equation}
        其中的优化目标是对(\ref{eq17:4})中目标函数的上方近似:
        $$f(x^k+\alpha(y^k-x^k))\leq f(x^k)+\alpha(y^k-x^k)^T\nabla f(x^k)+\frac{\alpha^2L}{2}\|y^k-x^k\|^2.$$
        以求简化(\ref{eq17:4})的求解.
\end{itemize}

\begin{definition}\label{def17:1}
    记$g(x):=\max_{y\in\Omega}\langle\nabla f(x),x-y\rangle$.则称该函数为FW(Frank-Wolfe)间隙函数.
\end{definition}

据凸优化的最优化条件可知,在任意的$x^*\in X^*$处均有
$$\langle\nabla f(x),y-x^*\rangle\geq 0,\forall y\in\Omega.$$
因此, $g(x^*)=0$.若$f$为凸函数,则由次梯度不等式
\begin{equation}\label{eq17:6}
    g(x)\geq \langle \nabla f(x),x-x^*\rangle\geq f(x)-f(x^*),\forall x\in\Omega.
\end{equation}
则$f(x^*)$在$\Omega$上的极小性,可进一步推知
$$g(x)\geq 0,x\in\Omega.$$
而在最优解$x^*\in X^*$处$g(x^*)=0$.据此, $g(x)$可作为最优性的一个"测量".

\begin{lemma}\label{lem17:1}
    条件梯度法(\ref{eq17:2})生成的序列$\{x^k\}$满足如下基本关系式:
    $$f(x^{k+1})\leq f(x^k)-\alpha_k g(x^k)+\frac{LR_\Omega^2}{2}\alpha_k^2,$$
    其中$R_\Omega:=\max\limits_{x,y\in\Omega}\|x-y\|$.
\end{lemma}

\begin{proof}
    运用梯度Lipschitz连续性与$L$-光滑的等价关系可推出
    \begin{equation}\label{eq17:7}
        \begin{aligned}
            f(x^{k+1}) & =f(x^k+\alpha_k(y^k-x^k))                                                                   \\
                       & \leq f(x^k)+\alpha_k\langle \nabla f(x^k),y^k-x^k\rangle+\frac{L\alpha_k^2}{2}\|y^k-x^k\|^2 \\
                       & \leq f(x^k)+\alpha_k\langle \nabla f(x^k),y^k-x^k\rangle+\frac{LR_\Omega^2}{2}\alpha_k^2.
        \end{aligned}
    \end{equation}
    由$y^k$的最优性可知
    $$\langle\nabla f(x^k),y^k\rangle\leq \langle\nabla f(x^k),y\rangle,\forall y\in\Omega.$$
    进而,
    \begin{equation*}
        \begin{aligned}
            \langle\nabla f(x^k),y^k\rangle & \leq \min_{y\in\Omega}\langle \nabla f(x^k),y\rangle \\
                                            & =-\max_{y\in\Omega}\langle \nabla f(x^k),-y\rangle.
        \end{aligned}
    \end{equation*}
    两边同加一项$\langle\nabla f(x^k),-x^k\rangle$可得
    $$\langle\nabla f(x^k),y^k-x^k\rangle\leq -\max_{y\in\Omega}\langle \nabla f(x^k),x^k-y\rangle=-g(x^k).$$
    因此,
    $$f(x^{k+1})\leq f(x^k)-\alpha_k g(x^k)+\frac{LR_\Omega^2}{2}\alpha_k^2.$$
    从而结论成立.证毕.
\end{proof}

\begin{theorem}\label{thm17:1}
    条件梯度法(\ref{eq17:2})任选步长策略(\ref{eq17:3})-(\ref{eq17:5})之一均有下列的西线性收敛
    $$f(x^k)-\bar{f}\leq \frac{2LR_\Omega^2}{k+2},k\geq 1.$$
\end{theorem}

\begin{proof}
    从(\ref{eq17:7})式可知,精确的搜索步长(\ref{eq17:4})和基于Lipschitz常数的步长(\ref{eq17:5})生成的$x^{k+1}$对应的函数值$f(x^{k+1})$均比取缩减步长$\alpha_k=\frac{2}{k+2}$生成的$f(x^{k+1})$更小.因此,仅需考虑缩减步长的情形.\\
    记
    $$\gamma_k=f(x^k)-\bar{f}.$$
    由(\ref{eq17:6})式可知$-g(x^k)\leq -(f(x^k)-\bar{f})=-\gamma_k$.于是应用\cref{lem17:1}可得
    \begin{equation}\label{eq17:8}
        \begin{aligned}
            \gamma_{k+1} & \leq \gamma_k-\alpha_k\cdot\gamma_k+c\cdot\alpha_k^2 \\
                         & =(1-\alpha_k)\gamma_k+c\cdot\alpha_k^2.
        \end{aligned}
    \end{equation}
    其中$c=\frac{LR_\Omega^2}{2}$.下面,用归纳法证明
    \begin{equation}\label{eq17:9}
        \gamma_k\leq \frac{4c}{k+2},k=1,2,\cdots.
    \end{equation}
    首先,当$k=0$时, $\alpha_0=1$.由(\ref{eq17:8})式得
    $$\gamma_1\leq c\leq \frac{4c}{1+2}.$$
    也就是说(\ref{eq17:9})式对$k=1$成立.假设(\ref{eq17:9})对$k$成立.往证$k+1$的情形也成立.事实上,
    \begin{equation*}
        \begin{aligned}
            \gamma_{k+1} & \leq (1-\alpha_k)\gamma_k+c\cdot\alpha_k^2                        \\
                         & \leq (1-\frac{2}{k+2})\cdot\frac{4c}{k+2}+c\cdot(\frac{2}{k+2})^2 \\
                         & \frac{4c(k+1)}{(k+2)^2}=\frac{4c}{k+2}\cdot\frac{k+1}{k+2}        \\
                         & \leq \frac{4c}{k+2}\cdot\frac{k+2}{k+3}=\frac{4c}{k+3}.
        \end{aligned}
    \end{equation*}
    证毕.
\end{proof}

\section{改进的收敛率}\label{sec17:2}
为得到更好的收敛率结果,我们引入强凸集的概念.

\begin{definition}\label{def17:2}
    设$\Omega\subseteq\mathbb{R}^n$为非空凸集.若对任意的$x,y\in\Omega$, $\gamma\in[0,1]$, $z\in\mathbb{R}^n$满足$\|z\|=1$均有
    \begin{equation}\label{eq17:10}
        \gamma x+(1-\gamma)y+\gamma(1-\gamma)\frac{\beta}{2}\|x-y\|^2\cdot z\in\Omega.
    \end{equation}
    则称$\Omega$为$\beta$-强凸集.换言之, $\Omega$包含了球心在$\gamma x+(1-\gamma)y$且半径为$\gamma(1-\gamma)\frac{\alpha}{2}\|x-y\|^2$的球时$\Omega$为$\beta$-强凸的.
\end{definition}

此外,我们还假设(\ref{eq17:1})中目标函数$f$为$\mu$-强凸的,也即
$$f(y)\geq f(x)+\langle\nabla f(y),y-x\rangle+\frac{\mu}{2}\|x-y\|^2.$$
在上式中取$x=x^*$并注意到最优化条件
$$\langle \nabla f(x^*),y-x^*\rangle\geq ,\forall y\in\Omega.$$
可知,
\begin{equation}\label{eq17:11}
    f(y)-\bar{f}\geq \frac{\mu}{2}\|y-x^*\|^2.
\end{equation}
下述引理给出了$g(x^k)$关于$\gamma_k$的更好的下界.

\begin{lemma}\label{lem17:2}
    考虑最优化问题(\ref{eq17:1})并假设$f$为$\mu$-强凸的, $\Omega$为$\alpha$-强凸的.则有
    $$g(x^k)\geq \max\left\{1,\frac{\sqrt{\mu}\|x^k-y^k\|^2}{4\sqrt{2\gamma_k}}\right\}\cdot\gamma_k.$$
\end{lemma}

\begin{proof}
    在(\ref{eq17:6})式中取$x=x^k$并注意到$\gamma_k=f(x^k)-\bar{f}$可知
    $$g(x^k)\geq \gamma_k.$$
    记$u=\frac{1}{2}(x^k+y^k)$.由$f$的强凸性(\ref{eq17:11})可知
    $$\|x^*-x^k\|\leq \sqrt{\frac{2}{\mu}\cdot\gamma_k}.$$
    于是在(\ref{eq17:10})式中取$\gamma=\frac{1}{2}$, $x=x^k$, $y=y^k$, $z=\frac{\sqrt{\mu}}{\sqrt{2\gamma_k}}(x^*-x^k)$.可知,
    $$w=u+\frac{\sqrt{\mu}\|x^k-y^k\|^2}{8\sqrt{2\gamma_k}}(x^*-x^k)\in\Omega.$$
    应用$y^k$的最优性可知
    \begin{equation*}
        \begin{aligned}
            \langle y^k-x^k,\nabla f(x^k)\rangle & \leq \langle w-x^k,\nabla f(x^k)\rangle                                                                                                       \\
                                                 & =\frac{1}{2}\langle y^k-x^k,\nabla f(x^k)\rangle+\frac{\sqrt{\mu}\alpha\|x^k-y^k\|^2}{8\sqrt{2\gamma_k}}\langle x^*-x^k,\nabla f(x^k)\rangle.
        \end{aligned}
    \end{equation*}
    因此,
    $$\langle y^k-x^k,\nabla f(x^k)\rangle\leq \frac{\sqrt{\mu}\|x^k-y^k\|^2}{4\sqrt{2\gamma_k}}\cdot\langle x^*-x^k,\nabla f(x^k)\rangle.$$
    结合$g(x)$的定义
    $$g(x^k)=\langle \nabla f(x^k),x^k-y^k\rangle$$
    以及$f(x)$的凸性
    $$\langle x^k-x^*,\nabla f(x^k)\rangle\geq f(x^k)-f(x^*)=\gamma_k,$$
    可推出结论.证毕.
\end{proof}

\begin{lemma}\label{lem17:3}
    在\cref{lem17:2}的条件下.基于Lipschitz常数步长的条件梯度法满足如下收敛关系:
    \begin{equation}\label{eq17:12}
        \gamma_{k+1}\leq \gamma_k(1-\eta\sqrt{\gamma_k}),k\geq K.
    \end{equation}
    其中$\eta=\frac{\sqrt{\mu}\beta}{8\sqrt{2}L}$, $K$为某一固定的自然数.
\end{lemma}

\begin{proof}
    由步长策略(\ref{eq17:5})式以及(\ref{eq17:7})的推导可知
    $$f(x^{k+1})\leq f(x^k)+\min_{\alpha\in[0,1]}\left\{\alpha\langle\nabla f(x^k),y^k-x^k\rangle+\frac{L\alpha^2}{2}\|y^k-x^k\|^2\right\}.$$
    从而,
    $$\begin{aligned}
            \gamma_{k+1} & \leq \gamma_k+\min_{\alpha\in[0,1]}\left\{\alpha\langle\nabla f(x^k),y^k-x^k\rangle+\frac{L\alpha^2}{2}\|y^k-x^k\|^2\right\} \\
                         & \leq \gamma_k+\min_{\alpha\in[0,1]}\left\{-\alpha g(x^k)+\frac{L\alpha^2}{2}\|y^k-x^k\|^2\right\}.
        \end{aligned}$$
    当$\|y^k-x^k\|^2\leq \frac{4\sqrt{2\gamma_k}}{\sqrt{\mu}\beta}$时.由\cref{lem17:2}可知
    \begin{equation}\label{eq17:13}
        \gamma_{k+1}\leq \gamma_k+\min_{\alpha\in[0,1]}\left\{-\alpha\gamma_k+\frac{L\alpha^2}{2}\cdot\frac{4\sqrt{2\gamma_k}}{\sqrt{\mu}\beta}\right\}.
    \end{equation}
    由\cref{thm17:1}可知存在$K$使得$k\geq K$时,
    \begin{equation}\label{eq17:14}
        \alpha=\frac{\sqrt{\mu\gamma_k}\beta}{4\sqrt{2}L}\leq 1.
    \end{equation}
    将其代入(\ref{eq17:13})中即得(\ref{eq17:12})式.\\
    当$\|y^k-x^k\|^2>\frac{4\sqrt{2\gamma_k}}{\sqrt{\mu}\beta}$时.再由\cref{lem17:2}可知
    $$\gamma_{k+1}\leq \gamma_k+\min_{\alpha\in[0,1]}\left\{-\alpha\cdot\frac{\sqrt{\mu}\beta\|x^k-y^k\|^2}{4\sqrt{2\gamma_k}}+\frac{L\alpha^2}{2}\|x^k-y^k\|^2\right\}.$$
    在此将(\ref{eq17:14})中的$\alpha$代入上式可得
    $$\gamma_{k+1}\leq \gamma_k\left(1-\frac{\mu\beta^2\|x^k-y^k\|^2}{64L}\right).$$
    应用前提条件$\|y^k-x^k\|^2>\frac{4\sqrt{2\gamma_k}}{\sqrt{\mu}\beta}$于上式后可推出(\ref{eq17:12})式.证毕.
\end{proof}

\begin{remark}
    由强凸的定义,若$f$为$\mu$-强凸的则对任意的$0<\tilde{\mu}<\mu$, $f$为$\tilde{\mu}$-强凸.于是,可选足够小的$\tilde{\mu}$使得(\ref{eq17:14})式中的$\alpha$对$k\geq 1$成立.事实上,
    $$\gamma_k=f(x^k)-\bar{f}\leq \frac{2L}{3}R_\Omega^2.$$
    代入(\ref{eq17:14})得
    $$\alpha\leq \frac{\sqrt{\tilde{\mu}}\beta}{4\sqrt{3L}}R_\Omega.$$
    于是可令
    $$\tilde{\mu}\leq \frac{48L}{\beta^2R_\Omega^2}.$$
    即可保证$\alpha\leq 1$.因此,若令
    $$\tilde{\mu}=\min\left\{\frac{48L}{\beta^2R_\Omega^2},\mu\right\},\tilde{\eta}=\frac{\sqrt{\tilde{\mu}}\beta}{8\sqrt{2}L}.$$
    则\cref{lem17:3}中的结论可修正为:
    \begin{equation}\label{eq17:15}
        \gamma_{k+1}\leq \gamma_k(1-\tilde{\eta}\sqrt{\gamma_k}),k\geq 1.
    \end{equation}
\end{remark}

\begin{theorem}\label{thm17:2}
    在\cref{lem17:3}的条件下.我们有如下改进的次线性收敛率:
    \begin{equation}\label{eq17:16}
        \gamma_k\leq \frac{c}{k^2}.
    \end{equation}
    其中$c=\max\left\{\frac{2L}{3}R_\Omega^2,\frac{27}{\tilde{\eta}^2}\right\}$.
\end{theorem}

\begin{proof}
    由\cref{thm17:1}知,
    $$f(x^k)-\bar{f}\leq \frac{2LR_\Omega^2}{k+2}\leq \frac{2L}{3}R_\Omega^2=c,k\geq 1.$$
    因此,
    $$\gamma_1=f(x^1)-\bar{f}\leq \frac{c}{1^2}.$$
    假设(\ref{eq17:16})式对$k$成立.下证$k+1$的情形.\\
    若$\gamma_k\leq \frac{c}{3k^2}$,则对任意的$k\geq 2$均有
    $$\gamma_{k+1}\leq \gamma_k\leq \frac{c}{3k^2}\leq\frac{c}{(k+1)^2}.$$
    若$\gamma_k> \frac{c}{3k^2}$,则由(\ref{eq17:15})式可知
    \begin{equation*}
        \begin{aligned}
            \gamma_{k+1} & \leq \gamma_k(1-\tilde{\eta}\sqrt{\gamma_k})                                                  \\
                         & \leq \frac{c}{k^2}(1-\tilde{\eta}\cdot\sqrt{\frac{c}{3}}\frac{1}{k})                          \\
                         & =\frac{c}{(k+1)^2}\cdot\frac{(k+1)^2}{k^2}(1-\tilde{\eta}\sqrt{\frac{c}{3}}\cdot\frac{1}{k})  \\
                         & \leq \frac{c}{(k+1)^2}\cdot(1+\frac{3}{k})(1-\tilde{\eta}\sqrt{\frac{c}{3}}\cdot\frac{1}{k}).
        \end{aligned}
    \end{equation*}
    由于$c\geq \frac{27}{\eta^2}$可知
    $$\gamma_{k+1}\leq \frac{c}{(k+1)^2}(1+\frac{3}{k})(1-\frac{3}{k})<\frac{c}{(k+1)^2}.$$
    证毕.
\end{proof}
~\par
为了推导线性收敛,我们再增加一个关于$\nabla f$的条件:存在常数$\delta>0$,使得
\begin{equation}\label{eq17:17}
    \|\nabla f(x)\|\geq\delta,\forall x\in\Omega.
\end{equation}

\begin{lemma}\label{lem17:4}
    在\cref{lem17:2}的条件下假设(\ref{eq17:17})成立.则有
    $$g(x^k)\geq \frac{\delta\cdot\beta}{4}\|x^k-y^k\|^2.$$
\end{lemma}

\begin{proof}
    在(\ref{eq17:10})式中取$\gamma=\frac{1}{2}$, $x=x^k$, $y=y^k$, $z=\frac{\nabla f(x^k)}{\|\nabla f(x^k)\|}$.则可知
    $$\omega=\frac{1}{2}(x^k+y^k)-\frac{\beta}{8}\|x^k-y^k\|^2\cdot\frac{\nabla f(x^k)}{\|\nabla f(x^k)\|}\in\Omega.$$
    由$y^k$的最优性可得
    $$\langle\nabla f(x^k),y^k\rangle\leq \langle\nabla f(x^k),\omega\rangle.$$
    于是,
    $$\langle\nabla f(x^k),,y^k-x^k\rangle\leq \langle\nabla f(x^k),\omega-x^k\rangle=\frac{1}{2}\langle\nabla f(x^k),y^k-x^k\rangle-\frac{\beta}{8}\|x^k-y^k\|^2\cdot\|\nabla f(x^k)\|.$$
    结合条件(\ref{eq17:17})可得
    $$\langle\nabla f(x^k),x^k-y^k\rangle\geq \frac{\beta\delta}{4}\|x^k-y^k\|^2.$$
    最后,注意到
    $$g(x^k)=\max_y\langle\nabla f(x^k),x^k-y\rangle=\langle\nabla f(x^k),x^k-y^k\rangle.$$
    可知结论成立.证毕.
\end{proof}

\begin{theorem}\label{thm17:3}
    在\cref{lem17:2}的条件下假设条件(\ref{eq17:17})成立.则条件梯度法任选步长策略(\ref{eq17:4})或自适应步长$\alpha_k=\min\left\{1,\frac{g(x^k)}{L\cdot\|y^k-x^k\|^2}\right\}$,均有如下线性收敛性:
    $$f(x^{k+1})-\bar{f}\leq (1-\lambda)\left(f(x^k)-\bar{f}\right).$$
    其中$\lambda=\min\left\{\frac{1}{2},\frac{\delta\beta}{8L}\right\}$.
\end{theorem}

\begin{proof}
    首先,由$f$的$L$-光滑性及$y^k$的最优性可知
    \begin{equation*}
        \begin{aligned}
            f(x^{k+1}) & \leq f(x^k)+\alpha_k\langle\nabla f(x^k),y^k-x^k\rangle+\frac{L\alpha_k^2}{2}\|y^k-x^k\|^2 \\
                       & =f(x^k)-\alpha_kg(x^k)+\frac{L\alpha_k^2}{2}\|y^k-x^k\|^2.
        \end{aligned}
    \end{equation*}
    仅考虑自适应步长的情形(因为精确搜索步长将使$f(x^{k+1})$更小).\\
    当$\alpha_k=1$时,由于$\alpha_k=\min\left\{1,\frac{g(x^k)}{L\cdot\|y^k-x^k\|^2}\right\}$可知
    $$g(x^k)\geq L\cdot\|y^k-x^k\|^2.$$
    于是,
    \begin{equation}\label{eq17:18}
        \begin{aligned}
            f(x^{k+1}) & \leq f(x^k)-g(x^k)+\frac{L}{2}\|x^k-y^k\|^2 \\
                       & \leq f(x^k)-g(x^k)+\frac{1}{2}g(x^k)        \\
                       & =f(x^k)-\frac{1}{2}g(x^k).
        \end{aligned}
    \end{equation}
    当$\alpha=\frac{g(x^k)}{L\cdot\|y^k-x^k\|^2}$时,
    \begin{equation*}
        \begin{aligned}
            f(x^{k+1}) & \leq f(x^k)-\frac{g(x^k)^2}{L\cdot\|y^k-x^k\|^2}+\frac{g(x^k)^2}{2L\|y^k-x^k\|^2} \\
                       & =f(x^k)-\frac{g(x^k)}{2L\|y^k-x^k\|^2}\cdot g(x^k).
        \end{aligned}
    \end{equation*}
    由\cref{lem17:4}可知
    $$\frac{g(x^k)}{\|y^k-x^k\|^2}\geq\frac{\delta\beta}{4}.$$
    于是,
    \begin{equation}\label{eq17:19}
        f(x^{k+1})\leq f(x^k)-\frac{\delta\beta}{8L} g(x^k).
    \end{equation}
    结合(\ref{eq17:18})与(\ref{eq17:19})式及$\lambda$的定义可知
    $$f(x^{k+1})\leq f(x)-\lambda g(x^k).$$
    最后,由
    $$g(x^k)\geq f(x^k)-\bar{f}=\gamma_k.$$
    可知
    $$\gamma_{k+1}\leq \gamma_k-\lambda \gamma_k=(1-\lambda)\gamma_k.$$
    即证.
\end{proof}

\section{CCCP的条件梯度法解释}\label{sec17:3}
考虑DC规划问题
$$\min_x f(x)-g(x).$$
其中$f,g$均为连续可微的凸函数,下面给出求解DC规划的CCCP(convex-concave procedure)格式.
\begin{equation}\label{eq17:20}
    x^{k+1}\in\mathop{\text{Argmin}}_x Q(x;x^k).
\end{equation}
其中$Q(x;y)$为$f(x)-g(x)$的全局上界定义为
$$Q(x;y):=f(x)-g(y)-\langle\nabla g(y),x-y\rangle.$$
由(\ref{eq17:20})式的最优性条件可知, CCCP满足隐式迭代式
$$\nabla f(x^{k+1})=\nabla g(x^k).$$

\begin{theorem}\label{thm17:4}
    CCCP (\ref{eq17:20})等价于带精确线搜索步长的条件梯度法应用于DC规划的如下约束优化形式
    $$\min_{x,t}t-g(x)\quad \text{s.t. }f(x)\leq t.$$
\end{theorem}

\begin{proof}
    条件梯度法的第一步是在约束条件
    $$Omega:=\{(x,t):f(x)\leq t\}.$$
    极小化目标函数$F(x,t)=t-g(x)$的线性近似
    $$\nabla F(x^k,t^k)^T\cdot(y,\eta)=\left(\begin{array}{cc}
                -\nabla g(x^k) \\1
            \end{array}\right)^T(y,\eta)=\eta-\nabla g(x^k)^Ty.$$
    于是,
    \begin{equation*}
        \begin{aligned}
            (y^k,\eta^k) & \in\mathop{\text{Argmin}}_{(y,\eta)\in\Omega}\eta-\nabla g(x^k)^Ty,                    \\
                         & =\mathop{\text{Argmin}}_{y,\eta}\eta-\nabla g(x^k)^Ty,\quad \text{s.t. }f(y)\leq \eta.
        \end{aligned}
    \end{equation*}
    由KKT条件知, $(y^k,\eta^k)$必满足关系式
    \begin{equation*}
        \left\{\begin{aligned}
            0 & =\left(\begin{array}{cc}
                           -\nabla g(x^k) \\1
                       \end{array}\right)+\lambda\cdot\left(\begin{array}{cc}
                                                                \nabla f(y^k) \\-1
                                                            \end{array}\right), \\
            0 & =\lambda(f(y^k)-\eta^k).
        \end{aligned}\right.
    \end{equation*}
    从而, $\lambda=1$且
    \begin{equation}\label{eq17:21}
        \left\{\begin{aligned}
            \nabla f(y^k) & =\nabla g(x^k), \\
            \eta^k        & =f(y^k).
        \end{aligned}\right.
    \end{equation}
    条件梯度法的第二步为
    \begin{equation*}
        \begin{aligned}
            x^{k+1} & =\alpha_ky^k+(1-\alpha_k)x^k,   \\
            t^{k+1} & =\alpha_\eta^k+(1-\alpha_k)t^k.
        \end{aligned}
    \end{equation*}
    其中$\alpha_k\in[0,1]$为步长参数.按精确线搜索策略选取$\alpha_k$.则
    $$\alpha_k=\mathop{\text{argmin}}_{\alpha\in[0,1]}t^k+\alpha(\eta^k-t^k)-g(x^k+\alpha(y^k-x^k)).$$
    可见该优化问题的目标函数为关于$\alpha$的凹函数.最优值必在端点处达到,于是$\alpha_k=1$.因此,
    $$x^{k+1}=y^k,t^{k+1}=\eta^k.$$
    代入(\ref{eq17:21})式可得
    $$\nabla f(y^k)=\nabla f(x^{k+1})=\nabla g(x^k).$$
    也即$\{x^k\}$满足CCCP格式.证毕.
\end{proof}

\begin{problemset}
    \item 设$f:\mathbb{R}^n\rightarrow\mathbb{R}_+$为$L$-光滑且$\mu$-强凸的. $\alpha>0$.则
    $$C_\alpha:=\{x\in\mathbb{R}^n:f(x)\leq \alpha\}$$
    为$\frac{\mu}{\sqrt{2\alpha L}}$-强凸集.
\end{problemset}



\end{document}
